Nach dem ersten mittelhochdeutschen Hörbuch

Diese Reflektionen beziehen sich auf ein Tutorial, in dem demonstriert wurde, wie sich aus einem mittelhochdeutschen Textausschnitt eine Sprachausgabe erzeugen lässt. Der Beginn des Tutorials findet sich hier.

Tastatur und Bildschirm haben sicher noch lange nicht ausgedient, aber immer seltener stellen sie die einzige Schnittstelle zur Computertechnologie dar. Die Fähigkeit einer Maschine, geschriebenen Text in gesprochene Sprache zu verwandeln, ist in Zeiten der persönlichen Assistentinnen ziemlich alltäglich geworden. Es ist insofern nicht verwunderlich, dass sich die Technologien zur Sprachsynthese mittlerweile mit relativ geringem Aufwand nutzen lassen. An der Sprache einer vergangenen Zeit scheitern die synthetischen Vorleser jedoch. Für diejenigen, die auf diese Technologie angewiesen sind und sich alleine mit ihrer Hilfe im Netz der Informationen bewegen, ergeben sich kaum zu überwindende Barrieren, sobald sie auf mittelhochdeutsche Texte treffen.

Wir haben in unserem Experiment demonstriert, dass es mit ein paar Zeilen Programmcode, allerdings durchaus möglich ist, aus einem geschriebenen mittelhochdeutschen Text eine verständliche und nachvollziehbare Sprachausgabe zu generieren. Die folgende Datei erlaubt es, die Ausgangslage und das Ergebnis bei Abschluss unseres Projektes zeilenweise zu vergleichen:

Der Übungstext, den wir für unseren Test verwendeten, war in der auf Lachmann und andere Pioniere der Mediävistik zurückgehenden normierten Orthographie des Mittelhochdeutschen verfasst. Diese kann im Wesentlichen als Lautschrift verstanden werden. Auf der Basis dieser Überlegung wurde für die Wörter des Textes algorithmisch eine phonetische Realisierung ermittelt, die von der Sprachsynthese wiedergegeben werden kann. Die Metrik mehrsilbiger Wörter ließ sich mit einer kleinen Gruppe von Regeln ziemlich zuverlässig ermitteln. Nur wenige Ausnahmen und Übergeneralisierungen mussten in einem Lexikon händisch eingetragen werden. Ebenfalls in einem Lexikon vermerkt wurden einsilbige Funktionswörter, deren Betonung kontextbedingt wechselt. Die Position im Vers ließ sich für eine verbesserte, sinngemäße Lesung der Akzentuierungen hinzuziehen. Ein weiterer Nutzen konnte aus den in die Edition eingetragenen Satzzeichen gezogen werden. Diese Verbesserungen auf rhythmischen Gebiet und die daraus resultierende größere inhaltliche Verständlichkeit der Lesung lässt sich an den im Verlauf des Tutorial entstandenen Audiodateien leicht nachvollziehen. Durch die doppelte Lesung ist dies an der obigen Datei nicht ganz so gut erkennbar.

Das im Tutorial entstandene Programm ist ohne weitere Änderung und Anpassung in der Lage einen sehr viel größeren Textausschnitt in eine Audiodatei einzulesen. Es wäre beispielsweise kein Problem, den Gesamttext, dem der Ausschnitt entnommen war, zu verwenden. Die Qualität der Lesung wird nur relativ geringfügig durch bisher unbekannte Worte und Konstellationen beeinträchtigt. Die eingangs formulierte Einsatzabsicht, die Erstellung eines Hörbuchs aus einem ausgewählten Text für private Zwecke lässt sich somit erreichen. Einige Modifikationen, etwa die Aufteilung der Audiodatei in Hörkapitel oder die bereits im Programm vorgenommene Umwandlung in transportablere MP3-Dateien würden den Komfort zwar steigern, sind aber nicht zwingend nötig.

Texte, die einer anderen Schreibnorm folgen, kann dieses Programm nicht besser lesen, als es die für das Neuhochdeutsche voreingestellten Routinen der Sprachsynthese tun würden. Ebenso wenig kann mit anderen Datenformaten als reinen Textdateien umgegangen werden. Um eine größere Flexibilität zu erreichen wäre es zwingend notwendig, die in das Programm unveränderbar eingeschriebenen Datenstrukturen, insbesonders die lexikalischen Daten, vom Programmcode zu trennen und damit (extern) editierbar zu machen. Das im Tutorial eingeführte aber keinesfalls erschöpfend behandelte Datenformat SSML bietet die benötigten Formalismen für solche Aufgaben. Es war nicht Absicht des Tutorials, eine fertige Lösung für komplexe Aufgaben im großen Maßstab zu erstellen. Viele Möglichkeiten wurden nur angedeutet und ausschnittsweise demonstriert. Selbstverständlich lassen sich sehr viel aufwendigere und treffsicherere Algorithmen zur Ermittlung von Lautstrukturen, Sinneinheiten und Akzentuierungen implementieren und differenziertere Strukturen in SSML kodieren. Mit größerer Ernsthaftigkeit und mehr Professionalität betrieben, als es der Rahmen eines Tutorials gestattet und vorsieht, wäre es möglich, jeden überlieferten und digitalisierten Text der mittelhochdeutschen Zeit wieder zum Klingen zu bringen. In einem gewissen Sinne wäre die Vision der frühen Mediävisten damit tatsächlich umgesetzt. Dieses Tutorial sollte anschaulich und unterhaltsam in die Thematik einführen, erste Kenntnisse der Technik vermitteln und zugleich demonstrieren, wie viel sich bereits mit recht bescheidenen Mitteln erreichen lässt. Es war durchaus Absicht, implizit darauf aufmerksam zu machen, dass angesichts der vorhandenen Möglichkeiten zur Aufhebung der Barrieren, die derzeitig fast ausschließlich den Sehenden vorbehaltene Präsentation der (wissenschaftlichen) Mediävistik im Internet eigentlich nicht akzeptabel ist.

Es wäre jedoch falsch, den Nutzen mit Hilfe der Computerprogramme erzeugter Sprachdateien, ausschließlich darin zu sehen, dass auf diesem Wege die alten Texte breiteren (weniger sehstarken) Schichten zugänglicher wären. Es sind Interpretationen und wenn sie auf dem Stand der wissenschaftlichen Forschung basieren, Editionen, anhand derer sich Theorien ebenso bilden und falsifizieren lassen, wie es Editionen in geschriebener Form erlauben. Die in diesem Tutorial verwendete und vorgestellte Methode erzeugt keine Audiodatei. Sie erstellt eine präzise und bis in phonetische Feinheiten ausgearbeitete Vorgabe, wie ein Text zu lesen ist und übergibt diese an ein Programm, das daraus Klänge erzeugt. Die Vorlage lässt sich speichern, kritisieren, kommentieren, diskutieren, korrigieren – und zur Kontrolle oder auch zu Unterhaltungs- und Informationszwecken lässt sich der dazugehörige Klang anhören.

Veröffentlicht von

Doktor Tom

Klar, Studium der Computerlinguistik und Germanistik mit Spezialisierung auf das Mittelhochdeutsche. So gesehen Digital Humanist. Vor allem aber Tüftler, der Spaß an ungewöhnlichen Aufgabenstellungen und einfachen, aber effizienten Lösungen hat.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

I accept that my given data and my IP address is sent to a server in the USA only for the purpose of spam prevention through the Akismet program.More information on Akismet and GDPR.