Wikidict.cc Bilingual Online Dictionary

Hiermit möchte Ich ein älteres Projekt von mir vorstellen, das bilinguales Online-Wörterbuch wikidict.cc. Das ganze wurde von mir und @morbidick innerhalb von wenigen Tagen hauptsächlich in Javascript runtergeschrieben.

Online-Präsenz von Wikidict.cc

Mein Anliegen war dabei, Übersetzungen die in verschiedene Sprachversionen von Wiktionary eingepflegt wurden, schnell zugänglich und nachschlagbar zu machen. Wiktionary ist kurz gesagt ein Wörterbuch auf Wikibasis, d.h. Seiten zu Wörter können von jedem Benutzer angelegt und bearbeitet werden. Darin enthalten sind dann sowas wie Wortbedeutungen, Etymologie, Deklination etc. Nicht sonderlich häufig findet man auch Wortübersetzungen in verschiedene Sprachen. Das praktische ist, auf diese Übersetzungen kann man super mittels einer API zugreifen und die Datensätze auch leicht in eigenen Projekten verwenden.

Okay klar, man kann auch einfach auf Dict.cc oder Leo.org zurückgreifen. Zum Teil sind diese Projekte ja auch von einer fleisigen Community getragen. Das Problem hierbei ist, dass die Datensätze stark eingeschränkt sind bzw. garnicht weiterverwendet werden können. Eigentlich schade, wenn man selbst dort Übersetzungen eingetragen hat, aber die Daten dann garnicht in anderen Projekten oder ähnliches weiterverwenden kann …

Bezüglich der einfachen Verwendung der Wiktionary API, die Wikidict.cc nutzt, stellt das Projekt keine große Errungenschaft da. Aber es macht immerhin deutlich, dass es noch an Übersetzungen im Wiktionary mangelt und dass die API zum Teil auch sehr unausgereift ist.

Ich habe mich länger mit dem Thema Wörterbücher auseinandergesetzt und den dazugehörigen Resourcen die es dafür im Netz gibt. Das ganze Thema scheint zwar recht wichtig zu sein für die Sprachwissenschaften, aber der Forschungsstand ist diesbezüglich recht unübersichtlich. Es gibt viele zum Teil undokumentierte und properitäre Dateiformate für Wörterbücher, sehr unterschiedliche Parser und Exporter für Wiktionary-Datenbanken und leider sehr wenig freie, aktuelle und strukturierte Datensätze.

Ich denke, dass Ich mich in Zukunft eher auf die API-Entwicklung fokusieren werde. Denn für die Wiktionary-API wäre schon einiges gewonnen, wenn man Inhalte der Einträge spezifischer abfragen und extrahieren kann.

Hier mal eine kleine Zusammenfassung, welche Probleme es bei der API noch so gibt:

  • Bei manchen Sprachen lassen sich die Übersetzungen nicht abfragen. Das liegt daran, dass jede Wiktionary-Gemeinde ihre eigenen Konventionen pflegt in der Strukturierung der Datensätze
  • Soweit Ich sehe, können keine weiteren Worteigenschaften abgefragt werden. Also Wortbedeutungen, Aussprache oder z.B. der Genus lassen sich noch nicht abfragen
No Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

* Checkbox GDPR is required

*

I agree

Software
Officepad – Etherpad alternative based on Onlyoffice

During the Chaos Communication Camp 2019 I was working on a project called Officepad. The aim was to build a web interface comparable to Etherpad. Etherpad is a well established tool for online text collaboration used by software developers, activists and so on. Etherpad is relatively stable and works well …

Software
2
Bye bye Play Store! Mirroring Play Store Apks to private F-Droid repo

This small tutorial will show you how to setup your own F-Droid repository containing automatically mirrored Play Store apps. Using this private repo, you don’t have to relay on Google Play Store or third party stores anymore to keep non-free apps up-to-date. All you need to have is a Linux …

Software
Ebook reader app for Nextcloud

Because of lack of altenatives I decided to write a small ebook reader plugin for Nextcloud. The task of creating such an app was quite easy: I just forked the files_pdfviewer extension and replaced PDF.js with the Epub.js library. In the app template file, I used the reference ebook reader …