Schreifmaschinn.lu / Spracherkennung auf Luxemburgisch
Das neue Programm schreifmaschinn.lu ermöglicht es nun, gesprochene Luxemburger Sprache in Schriftsprache zu transkribieren. Ein solches Werkzeug gab es bislang für das Luxemburgische noch nicht. Am Freitag wurde es vorgestellt.
Am Freitag stellte Bildungsminister Claude Meisch zusammen mit dem „Zentrum fir Lëtzebuerger Sprooch“ eine Web-Applikation vor, die es ermöglicht, aus gesprochener Sprache einen geschriebenen Text zu machen. Das Besondere daran: Die Anwendung funktioniert für Luxemburgisch. „Dies ist so ‚fresh and funky’, dass es noch nicht mal im ‚Lëtzebuerger Online-Dictionnaire’ (LOD) zu finden ist“, sagte Luc Marteling, Direktor vom „Zentrum fir d’Lëtzebuerger Sprooch“ (ZLS) bei der Vorstellung des neuen Werkzeugs am Freitag. „Es ist ein Prototyp mit Power, Potenzial … und noch gewissen Grenzen. Aber nicht mehr lange.“ Der Prototyp basiere auf der Idee des früheren Studenten Le Minh Nguyen, der heute Entwickler für ein Unternehmen in Kalifornien ist, und des Computerlinguisten Sven Collette vom ZLS, sagte Marteling. Das Bildungsministerium habe anschließend das Vorhaben unterstützt.
Dies ist so ‚fresh and funky’, dass es noch nicht mal im ‚Lëtzebuerger Online-Dictionnaire’ (LOD) zu finden istDirektor des ZLS
Computerlinguist Sven Collette, Mitentwickler des Programms, erklärte, wieso es bisher noch keine solche Möglichkeit der Transkription für die Luxemburger Sprache gab. Das Luxemburgische sei eine „low resource language“. Das bedeute, dass nicht genug Daten verfügbar seien, um ordentliche Algorithmen für die künstliche Intelligenz zu trainieren, weder in der Qualität noch in der Quantität. „Das ist auch der Grund, wieso große Tech-Firmen nicht direkt am Luxemburgischen interessiert sind“, so Collette. Google und Facebook bauen andererseits Algorithmen, die auf vielen Sprachen vortrainiert sind. Diese könne man sich zunutze machen und weiter anhand des Luxemburger Modells ausbauen. Diese Algorithmen sollen fortan mit viel Luxemburgisch gefüttert und verfeinert werden.
Schreifmaschinn.lu basiert laut Collette auf dem multilingualen Open-Source-Modell meta.ai XLS-R, welches mit 436.000 Stunden Audiomaterial in 128 verschiedenen Sprachen vortrainiert wurde. Um dieses Modell spezifisch für die Luxemburger Sprache auszurichten, wurde die künstliche Intelligenz des Programms mit luxemburgischen Daten verfeinert. Diese stammen aus den Luxemburger Medien 100,7 und RTL. Das ZLS hat an dieser Stelle sein Knowhow eingebracht, um die transkribierten Medientexte orthografisch anzupassen und mit der Audiodatei zu synchronisieren. Le Minh Nguyen, Experte in der „voice technology“, baute anschließend eine Web-Applikation um das Programm.
Noch nicht ausgereift
Sven Collette betonte, dass das Programm noch nicht ausgereift ist. So sei es beispielsweise vorzuziehen, Aufnahmen mit möglichst wenigen Hintergrundgeräuschen hochzuladen, da das Modell mit sauberen Daten vorprogrammiert worden sei. Irgendwann werde es möglich sein, selbst Sprachdateien mit niesenden Menschen in einem Bus korrekt zu transkribieren. Dazu müsse man aber solche Aufnahmen in das Programm einspielen, um es darauf zu trainieren. „Wir wollen nicht hier aufhören, sondern das Modell weiterentwickeln“, so der Computerlinguist.
Wir sind gespannt, mit welchen Ideen die Leute kommen werdenComputerlinguist beim ZLS
Das nun vorstellte Werkzeug diene auch als Basis für viele weitere Anwendungen, ergänzte Claude Meisch. Dazu gehören laut dem Bildungsminister die Sprachsteuerung, Vorlesefunktionen, simultane Untertitel oder Live-Übersetzungen. An diesen Elementen werde man ab nächstem Jahr arbeiten. Sven Collette präzisierte, dass man das jetzt vorgestellte Modell in den kommenden Wochen als Open-Source-Programm öffentlich zur Verfügung stellen werde. Jeder könne darauf zugreifen, um eigene Apps zu entwickeln und zu vermarkten. „Wir sind gespannt, mit welchen Ideen die Leute kommen werden“, sagte der Computerlinguist des ZLS.
Ob man es langfristig fertigbringe, dass Google-Assistance oder Siri Luxemburgisch verstehen, sei zu hoffen, sagte Collette. Dieses Ziel strebe man anhand weiterer Kooperationen jedenfalls an. „Jedoch liegt dies nicht nur in unserer Hand“. Collette nutzte die Gunst der Stunde und rief Privatleute dazu auf, beispielsweise Hobby-Podcaster, die viele verwertbare Audiodateien besitzen, sich beim ZLS zu melden. Dieses Material sei nützlich für die Weiterentwicklung des Programms.
Aktionsplan für Luxemburger Sprache
Claude Meisch schlussfolgerte, dass das sich nun zu Ende neigende Jahr 2022 ein gutes für die Luxemburger Sprache gewesen sei. Zum einen komme in den nächsten Tagen der neu ausgearbeitete Aktionsplan für Luxemburgisch in den Regierungsrat. Dieses Jahr sei ebenfalls das neue Luxemburgisch-Online-Lexikon LOD vorgestellt worden. Eine weitere Errungenschaft sei die Einführung der neuen digitalen Plattform llo.lu „Lëtzebuergesch léieren online“, auf der bislang 40.000 User registriert werden konnten.
An dem Projekt haben viele Partner zusammengearbeitet, wie Luc Marteling anhand einer langen Aufzählung zeigt: Uni.lu, ZLS, INL („Institut national des langues“), das Bildungsministerium mit verschiedenen Abteilungen wie Script oder Ifen, Digitalisierungministerium, „Chamber“, Organisationen wie „Autisme Luxembourg“, CTIE („Centre des technologies de l’information de l’Etat“), CNA („Centre national de l’audiovisuel“), Wikimedia, Lehrerinnen und Lehrer, Übersetzerinnen und Übersetzer.
Wie schreifmaschinn.lu funktioniert
1. Auf einem Computer, Tablet oder Smartphone ein Browser-Fenster öffnen und die Seite schreifmaschinn.lu eintippen. 2. Auf der Intro-Seite den Disclaimer lesen. Diese kurze Erklärung geht auf einige Fragen ein, die man sich als User stellen könnte. 3. Auf der Hauptseite hat man die Wahl: Man kann selbst ins Mikrofon sprechen, man kann eine kurze Audiodatei (maximal 30 Sekunden) hochladen oder die „Schreifmaschinn“ mit bereits vorgefertigten Beispielsätzen testen. 4. Kurz auf das Ergebnis der Transkription warten. Der Text taucht unter einem Fenster unter der Audiodatei auf. 5. Bei Bedarf kann der Text aus der „Schreifmaschinn“ kopiert und weiterverarbeitet werden.
- Was Jugendliche im Internet treiben: Bericht zeigt Nutzungsverhalten auf digitalen Geräten - 8. Februar 2023.
- Kritik am FDC: Die „schmutzigen“ Investments des „Pensiounsfong“ - 7. Februar 2023.
- Ein Plan für mehr Naturschutz in Luxemburg - 3. Februar 2023.
Ass vlaicht eng gutt Idee, mee dann lei’ert een Naischt mei‘ !
Daat ass Wessensvermettlung durch Lidderechkeet !
Da léiert een awer villäicht mol richteg Lëtzebuergesch ze schreiwen, ouni eng hallef Dosen Feeler an engem kuerzen Text !
Wat ee Quatsch! Et wär jo wesentlech méi einfach, just nëmmen den digitalen Toun op ze huelen. Virwat muss deen an eng Schrëft verwandelt gin, wa souwisou an Zukunft, déi meescht, weder schreiwe nach liese wärte léieren.
@spielmfe
„Da léiert een awer villäicht mol richteg Lëtzebuergesch ze schreiwen, ouni eng hallef Dosen Feeler an engem kuerzen Text !“
Äre Spellchecker kennt d’Eifeler Reegel net. ‚Dose‘ verléiert den ’n‘.
20 Joer HeiElei aspillen.