Wikidict.cc Bilingual Online Dictionary

Hiermit möchte Ich ein älteres Projekt von mir vorstellen, das bilinguales Online-Wörterbuch wikidict.cc. Das ganze wurde von mir und @morbidick innerhalb von wenigen Tagen hauptsächlich in Javascript runtergeschrieben.

Online-Präsenz von Wikidict.cc

Mein Anliegen war dabei, Übersetzungen die in verschiedene Sprachversionen von Wiktionary eingepflegt wurden, schnell zugänglich und nachschlagbar zu machen. Wiktionary ist kurz gesagt ein Wörterbuch auf Wikibasis, d.h. Seiten zu Wörter können von jedem Benutzer angelegt und bearbeitet werden. Darin enthalten sind dann sowas wie Wortbedeutungen, Etymologie, Deklination etc. Nicht sonderlich häufig findet man auch Wortübersetzungen in verschiedene Sprachen. Das praktische ist, auf diese Übersetzungen kann man super mittels einer API zugreifen und die Datensätze auch leicht in eigenen Projekten verwenden.

Okay klar, man kann auch einfach auf Dict.cc oder Leo.org zurückgreifen. Zum Teil sind diese Projekte ja auch von einer fleisigen Community getragen. Das Problem hierbei ist, dass die Datensätze stark eingeschränkt sind bzw. garnicht weiterverwendet werden können. Eigentlich schade, wenn man selbst dort Übersetzungen eingetragen hat, aber die Daten dann garnicht in anderen Projekten oder ähnliches weiterverwenden kann …

Bezüglich der einfachen Verwendung der Wiktionary API, die Wikidict.cc nutzt, stellt das Projekt keine große Errungenschaft da. Aber es macht immerhin deutlich, dass es noch an Übersetzungen im Wiktionary mangelt und dass die API zum Teil auch sehr unausgereift ist.

Ich habe mich länger mit dem Thema Wörterbücher auseinandergesetzt und den dazugehörigen Resourcen die es dafür im Netz gibt. Das ganze Thema scheint zwar recht wichtig zu sein für die Sprachwissenschaften, aber der Forschungsstand ist diesbezüglich recht unübersichtlich. Es gibt viele zum Teil undokumentierte und properitäre Dateiformate für Wörterbücher, sehr unterschiedliche Parser und Exporter für Wiktionary-Datenbanken und leider sehr wenig freie, aktuelle und strukturierte Datensätze.

Ich denke, dass Ich mich in Zukunft eher auf die API-Entwicklung fokusieren werde. Denn für die Wiktionary-API wäre schon einiges gewonnen, wenn man Inhalte der Einträge spezifischer abfragen und extrahieren kann.

Hier mal eine kleine Zusammenfassung, welche Probleme es bei der API noch so gibt:

  • Bei manchen Sprachen lassen sich die Übersetzungen nicht abfragen. Das liegt daran, dass jede Wiktionary-Gemeinde ihre eigenen Konventionen pflegt in der Strukturierung der Datensätze
  • Soweit Ich sehe, können keine weiteren Worteigenschaften abgefragt werden. Also Wortbedeutungen, Aussprache oder z.B. der Genus lassen sich noch nicht abfragen
No Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

* Checkbox GDPR is required

*

I agree

Software
Importing playlists to Jellyfin media server

In the following post I would like to describe a way to import music playlists to Jellyfin media server, for example in case you want to migrate them from a former Plex or Emby installation. Usually, Jellyfin is already able to detect playlist files within the media library. Unfortunately my …

Software
Jellyfin media server on Archlinux ARM

In this post, I want to share some insights on building Jellyfin media server for Archlinux ARM. The PKGBUILD for Jellyfin one can find on the AUR, is specifically made for 64 bit architectures. Nevertheless Microsoft released the dotnet runtime, which Jellyfin relies on instead of Mono, also for Linux …

Software
2
Voice control Archlinux with Amazon Alexa

I was interested to see how commercial voice recognition software would behave on an usual Linux laptop and tried to deploy an Amazon Alexa instance. There are some installation scripts and tutorials available for Ubuntu and Raspberry PI using the avs-device-sdk from Github. Even though some of them are official …