Wikidict.cc Bilingual Online Dictionary

Hiermit möchte Ich ein älteres Projekt von mir vorstellen, das bilinguales Online-Wörterbuch wikidict.cc. Das ganze wurde von mir und @morbidick innerhalb von wenigen Tagen hauptsächlich in Javascript runtergeschrieben.

Online-Präsenz von Wikidict.cc

Mein Anliegen war dabei, Übersetzungen die in verschiedene Sprachversionen von Wiktionary eingepflegt wurden, schnell zugänglich und nachschlagbar zu machen. Wiktionary ist kurz gesagt ein Wörterbuch auf Wikibasis, d.h. Seiten zu Wörter können von jedem Benutzer angelegt und bearbeitet werden. Darin enthalten sind dann sowas wie Wortbedeutungen, Etymologie, Deklination etc. Nicht sonderlich häufig findet man auch Wortübersetzungen in verschiedene Sprachen. Das praktische ist, auf diese Übersetzungen kann man super mittels einer API zugreifen und die Datensätze auch leicht in eigenen Projekten verwenden.

Okay klar, man kann auch einfach auf Dict.cc oder Leo.org zurückgreifen. Zum Teil sind diese Projekte ja auch von einer fleisigen Community getragen. Das Problem hierbei ist, dass die Datensätze stark eingeschränkt sind bzw. garnicht weiterverwendet werden können. Eigentlich schade, wenn man selbst dort Übersetzungen eingetragen hat, aber die Daten dann garnicht in anderen Projekten oder ähnliches weiterverwenden kann …

Bezüglich der einfachen Verwendung der Wiktionary API, die Wikidict.cc nutzt, stellt das Projekt keine große Errungenschaft da. Aber es macht immerhin deutlich, dass es noch an Übersetzungen im Wiktionary mangelt und dass die API zum Teil auch sehr unausgereift ist.

Ich habe mich länger mit dem Thema Wörterbücher auseinandergesetzt und den dazugehörigen Resourcen die es dafür im Netz gibt. Das ganze Thema scheint zwar recht wichtig zu sein für die Sprachwissenschaften, aber der Forschungsstand ist diesbezüglich recht unübersichtlich. Es gibt viele zum Teil undokumentierte und properitäre Dateiformate für Wörterbücher, sehr unterschiedliche Parser und Exporter für Wiktionary-Datenbanken und leider sehr wenig freie, aktuelle und strukturierte Datensätze.

Ich denke, dass Ich mich in Zukunft eher auf die API-Entwicklung fokusieren werde. Denn für die Wiktionary-API wäre schon einiges gewonnen, wenn man Inhalte der Einträge spezifischer abfragen und extrahieren kann.

Hier mal eine kleine Zusammenfassung, welche Probleme es bei der API noch so gibt:

  • Bei manchen Sprachen lassen sich die Übersetzungen nicht abfragen. Das liegt daran, dass jede Wiktionary-Gemeinde ihre eigenen Konventionen pflegt in der Strukturierung der Datensätze
  • Soweit Ich sehe, können keine weiteren Worteigenschaften abgefragt werden. Also Wortbedeutungen, Aussprache oder z.B. der Genus lassen sich noch nicht abfragen
No Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

* Checkbox GDPR is required

*

I agree

Software
Virtual 3D online exhibition with MapBox GL JS

For my last semester in university (summer semester 2018) at the KIT, I was part of a project to create an “online art exhibition”. We planned to produce different media formats in smaller groups. One for video, another for text and promotion and one for the online presence. I’ve figured …

Software
Host your own Mapbox GL JS vector tiles map

I’ve done some research recently on how I could host my own online map viewer with a MapBox GL JS instance, an excellent and modern open-source alternative for Google Maps. The server should also serve own preprocessed map data from OpenStreetmap planet extracts. No external or third-party service will be …

Software
1
Easily setup Signal 2FA on Nextcloud 14

Two-factor authentication (short 2FA) is an important security concept to secure unauthorized access to your web applications. Popular online services like Google Mail, Instagram or Facebook already provide this mechanism to secure user accounts with an additional one-time token. Considering someone is able to obtain your username and password combination, …