Automatisierte Spracherkennung?

  1 | 2
Screenshot Dactylo

Test einer Spracherkennungssoftware zur automatisierten Metadatenerfassung

von Johannes Kapeller

1.      Warum Spracherkennung?
2.       Technische Grundlagen der Spracherkennung - Das Programm NOA Dactylo
3.       Test der Spracherkennungssoftware NOA Dactylo
3.1.    Testanordnung
3.2.    Testdurchführung
3.3.    Testergebnisse
4.       Schlussfolgerungen – weitere Vorgangsweise

1. Warum Spracherkennung?

Eines der Ziele des vorliegenden Projektes war, die Möglichkeiten einer automatischen Spracherkennung bei der inhaltlichen Erfassung eines großen Datenbestandes auszuloten. Diese Möglichkeit, so sie realisierbar wäre, würde eine große Arbeitserleichterung bzw. Zeiteinsparung in Bezug auf die intellektuelle bzw. manuelle Katalogisierung bedeuten, welche eine sehr zeitintensive Tätigkeit innerhalb von Editionsprojekten wie diesem darstellt.
Im Rahmen des Projektes sollte deshalb die Möglichkeit einer automatisierten Erstellung eines schriftlichen Transkriptes zum Zweck einer genauen inhaltlichen Erfassung des vorhandenen Bestandes an Hörfunksendungen überprüft werden. Weiters - und damit zusammenhängend - wurde versucht, die Möglichkeit der Metadatenanreicherung mittels automatisch generierter Stichwörter durch eine Spracherkennungssoftware auszuloten, sowie die eventuell sich ergebenden möglichen Ergänzungen zwischen manueller/intellektueller und automatisierter Katalogisierung zu testen.

 

2. Technische Grundlagen der Spracherkennung

Das Programm NOA Dactylo

Gearbeitet wurde mit der Spracherkennungssoftware „NOA Dactylo Indexer Version 1.0.0“ (Build 16) der Firma NOA und dem „Language Model Toolkit Version 3.0“ (Matador_1111) der Firma SAIL LABS Technology AG. Beide zusammen bilden eine Einheit.

Die Erkennung und Indizierung gesprochener Sprache erfolgt in diesem Programm auf folgender technischer Grundlage: Zur Spracherkennung wird eine digital vorhandene Tonaufnahme in einem vierstufigen Modell mathematisch analysiert.
In der ersten Stufe werden Hintergrundgeräusche aus dem Tonfile herausgefiltert, sodass das gesprochene Wort im Vordergrund steht.
In der zweiten Stufe wird eine Phonemtranskription durchgeführt. Phoneme sind per Definition die kleinsten bedeutungsunterscheidenden, aber nicht bedeutungstragenden Einheiten einer Sprache. Die deutsche Sprache verfügt über etwa 40 Phoneme, Dialekte mitunter über noch viel mehr. Phoneme sind nicht ident mit Buchstaben, da viele Buchstaben in mehreren Varianten ausgesprochen werden können. Dadurch ergeben sich weit mehr gesprochene Phoneme als niedergeschriebene Buchstaben.
In der dritten Stufe entsteht auf Grund dieses ersten phonetischen Transkriptes eine Übersetzung anhand eines Wörterbuchs. Das Spracherkennungsprogramm enthält ein Wörterbuch mit 150.000 bis 180.000 Wörtern, die in einem weiteren Arbeitsschritt mit neuen Worten ergänzt werden können.
In der vierten und letzten Stufe wird das Resultat mit einem Sprachmodell verglichen, das mit Hilfe von Linguist/innen durch Analyse der gesprochenen Sprache entwickelt wurde. Das Sprachmodell geht speziell auf den semantischen Kontext ein, der je nach Wissenschaftsgebiet oder Thema variiert. Es werden vektorielle Wahrscheinlichkeiten für jedes Wort berechnet.

Während für den Software-Benutzer bei den ersten drei Stufen nicht sehr viele Eingriffsmöglichkeiten bestehen – man kann nur auswählen, welches Tonfile transkribiert werden soll und sich anschließend das Ergebnis ansehen - ist die Arbeit mit dem in der vierten Stufe verwendeten „Language Model Toolkit“ eine sehr zeitintensive Tätigkeit, die es ermöglichen sollte, das Programm auf einen jeweiligen Bestand anzupassen. Hier wird ebenfalls ein fertiges Sprachmodell mit 150.000 bis 180.000 Wörtern zur Verfügung gestellt. Von dieser Basis aus kann ein eigenes Sprachmodell gebaut werden, indem man zu schon gespeicherten Wörtern neue hinzufügt. Da die Spracherkennungssoftware lernend ist, kann man durch das Hinzufügen neuer Wörter bzw. Textpassagen die Trefferquote der Texterkennung steigern.

3. Test der Spracherkennungssoftware NOA Dactylo

Ziele


Getestet wurde die Spracherkennungssoftware im Rahmen der oben erwähnten Projektziele erstens auf die Möglichkeit, die digitalisierten Audioaufnahmen in einer Volltextversion abzubilden, zweitens auf die Möglichkeit einer automatischen Indizierung (Beschlagwortung) der bearbeiteten Tonfiles als Zusatz zur manuellen Katalogisierung. Auf der Basis der vorhandenen Möglichkeiten sollte ein eigens auf den vorhandenen Bestand zugeschnittenes Sprachmodell entwickelt werden, wodurch die erzielten Ergebnisse noch verbessert werden sollten.  

3.1. Testanordnung:

Der Bestand:

Da der zu indizierende Bestand hinsichtlich der für die Sendungen verwendeten Aufnahmesituationen und Stimmporträts sehr vielfältig ist, und damit zu rechnen war, dass sich dadurch Auswirkungen auf die Möglichkeiten der automatischen Spracherkennung ergeben würden, erfolgte vorerst eine Auswahl von einzelnen Beiträgen nach der jeweiligen  Aufnahmeumgebung.

Folgende Kategorien wurden ausgewählt:

    Studiobeiträge: Bei Studiobeiträgen handelt es sich um eine kontrollierte Aufnahmesituation, es kann von einer sehr guten Aufnahmequalität ausgegangen werden, zudem ist meist ein/e geschulte/r Sprecher/in beteiligt (Moderator/in, bzw. Gestalter/in) sowie teilweise weitere Gesprächspartner/innen.

    Nachrichtenbeiträge: Bei Nachrichtenbeiträgen handelt es sich um eine Sonderform einer Studioaufnahme, es kommt nur ein/e einzelne/r, geschulte/r Sprecher/in vor, zudem ist der Tonfall des Vortrags („Nachrichtenton“) keinen allzu großen Schwankungen unterworfen.

    Außenaufnahmen: Bei Außenaufnahmen können unterschiedlichste Qualitätsfaktoren zum Tragen kommen. Die Möglichkeit unerwünschter Nebengeräusche ist gegeben, die Aufnahmesituation ist in Bezug auf Hintergrundgeräusche nicht vollständig kontrollierbar.

    Kulturbeiträge: Bei Kulturbeiträgen handelt es sich natürlich nicht um eine „Aufnahmeumgebung“, im konkreten Fall wurden diese jedoch trotzdem als eigene Kategorie aufgenommen, da darin vermehrt O-Töne mit Interviewten in teilweise unterschiedlichen Sprachen mit Dolmetscher/innen verwendet werden, sowie teilweise Musik- bzw. Filmszenenausschnitte mit Sprache vermischt präsentiert werden, sowie Studio- und Außenaufnahmen gleichermaßen vertreten sind.

    Telefonübertragungen: Telefonübertragungen wurden ebenfalls als Testkategorie ausgewählt. Es handelt sich dabei meist um eine/n Sprecher/in (Gestalter/in), die Qualität der Aufnahme kann jedoch je nach Verbindung ziemlich unterschiedlich sein und ist im Vergleich zu Studioaufnahmen allgemein als niedriger einzuschätzen.


Zusätzlich wurden innerhalb der jeweiligen Aufnahmeumgebung verschiedene Aufnahmesituationen unterschieden, um auch eventuelle Auswirkungen durch verschiedene Außen-Einflüsse wie z.B. veränderte Dialog-Konstellationen etc. herauszufinden:

    Längeres Interview mit 2 Sprechern
    Männlicher Sprecher
    Weibliche Sprecherin
    Gute Qualität
    Schlechte Qualität
    Kanalausfälle
    Live-Reportage vor Ort
    Fremdsprachige Interviews
    Außeninterviews in geschlossenen Räumen
    Beitrag mit Probenausschnitten

Diese Auswahl erhebt keinen Anspruch auf Vollständigkeit, es ging hierbei vielmehr darum, eine möglichst große Bandbreite an verschiedenen Parametern (Aufnahmesituationen, Qualitätsunterschiede) bzw. möglichen Einflussfaktoren auf die Möglichkeiten der automatisierten Spracherkennung zu erstellen.

Ausgewählte Testbeiträge:

  1980- 1985- 1989

  Studiobeiträge
längeres Interview 2 Sprecher/innen --- jm-850112 jm-891230
 männlicher Sprecher
 jm-841217 jm-850112
jm-891230
 weibliche Sprecherin
 jm-830125  jm-870824 jm-891230
 gute Qualität
 jm-841217  jm-870102  jm-891219
 schlechte Qualität
 jm-820624  jm-861231 jm-891230
 Kanalausfälle  jm-820624  jm-870824 jm-891230

  Nachrichten
  1980- 1985- 1989
 männlicher Sprecher  jm-841217 jm-870102
 jm-890130
 weibliche Sprecherin  jm-830125  jm-850112 jm-891230
 gute Qualität  jm-841217  jm-870102  jm-891219
 schlechte Qualität  jm-820624  jm-861231  jm-890130
 Kanalausfälle  jm-820624  jm-870824  jm-890130

  Außenaufnahmen
  1980- 1985- 1989
 männlicher Sprecher
jm-841217  jm-850112  jm-890130
 weibliche Sprecherin jm-820624  jm-880915  jm-890130
 gute Qualität jm-841217  jm-850112  jm-891219
 schlechte Qualität jm-841217  jm-870824  jm-890130
 Live-Reportage vor Ort jm-841217  jm-850112  jm-891230
 fremdsprachige Interviews jm-841217  jm-881111  jm-891219
 Kanalausfälle jm-820624  jm-870824  jm-890130
 Außeninterview in geschl. Räumen jm-841217  jm-850112  jm-891230

  Kulturbeiträge
  1980- 1985- 1989
längeres Interview 2 Sprecher/innen  jm-841217  jm-870824  jm-891230
gute Qualität  jm-841217  jm-870102  jm-891219
 schlechte Qualität  jm-820624  jm-870824  jm-890130
 Beitrag mit Proben-Aussschnitten  ---  jm-880312  jm-891219
 Beitrag mit Musik  jm-800128  jm-850112  jm-891230
 Kanalausfälle  jm-820624  jm-870824  jm-890130
 fremdsprachige Interviews  jm-800128  jm-881111  jm-891219
 Außenaufnahmen  jm-841217  jm-870824  jm-890130

  Telefonübertragungen
  1980- 1985- 1989
längeres Interview 2 Sprecher/innen  jm-841217  jm-850112  jm-890130
männlicher Sprecher
 jm-841217  jm-861231  jm-890130
 weibliche Sprecherin  jm-841217  jm-850112  jm-890130
  gute Qualität  jm-841217  jm-870102  jm-891219
schlechte Qualität  jm-841217  jm-861231  jm-891127
 Telefoninterview allgemein  jm-800126  jm-870102  jm-890130
 Kanalausfälle  jm-820624  jm-870824  jm-890130
Tabelle 1: Verwendete Testbeiträge
  1 | 2