1

Thema: 8. Schritt: Verbessern der Erkennungsleistung - Vokabular anpassen

8. Schritt: Verbessern der Erkennungsleistung - Vokabular anpassen


Die zentrale Schnittstelle zwischen dem Spracherkennungs-Modul, dem Anwender (besser gesagt: dem Input) und der Textausgabe ist das Vokabular. Aufgrund der Vielfältigkeit der darin miteinander verbundenen Elemente und den sich daraus ergebenden Möglichkeiten verdient dieses Thema eine ganz besondere Behandlung.


1. Was ist das Vokabular?

Im Vokabular für die jeweils verwendete Sprache sind alle Wörter und Wortformen erfasst, die die Spracherkennungssoftware bei der Analyse des gesprochenen Diktates identifizieren kann. Anders formuliert, ein Wort oder eine Wortform, die nicht im Vokabular enthalten ist, kann auch nicht erkannt werden.

Der Spracherkenner segmentiert den kontinuierlichen Sprachfluss in die elementaren Sprachbestandteile, die Sprachlaute (Phoneme), dies jedoch immer im Hinblick darauf, wie sie sich zu größeren, "sinnvollen" Einheiten, nämlich den Wörtern und Wortformen im Vokabular, zusammensetzen (können), die wiederum aneinandergereiht werden. Der Spracherkenner bildet sich zunächst zu jeder möglichen Position eine Wort-Hypothese, die dann im weiteren Verlauf der Analyse der zusammenhängenden Äußerung bestätigt oder verworfen wird. Das Ergebnis dieses Prozesses ist die als Text ausgegebene Umsetzung.

Bei diesem Entscheidungsprozess steht dem Spracherkenner potenziell der gesamte aktive Wortschatz zur Verfügung, im Auslieferungszustand immerhin eine Liste von etwa 150.000 Einträgen, die wiederum durch Hinzufügen benutzerdefinierter Einträge auf etwa 200.000 ausgeweitet werden kann! Kluge Algorithmen aber sorgen dafür, dass während der Erkennung nicht die komplette Liste durchsucht werden muss, sondern Abkürzungen genommen werden. Darüber hinaus befindet sich noch ein Hintergrund-Lexikon auf der Festplatte, worauf während Korrekturen zugegriffen werden kann. Dieses Lexikon ist nicht einsehbar, man schätzt, dass sich darin weitere circa 250.000 Einträge befinden. Der aktive Wortschatz dagegen ist im Vokabular-Editor vollständig einzusehen.

Weil aber jede einzelne Wortform als separater Eintrag behandelt werden muss, stehen somit nicht 150.000 oder 200.000 verschiedene Wörter zur Verfügung, sondern deutlich weniger, bedingt durch die Vielzahl der - insbesondere im Deutschen möglichen - flektierten Formen.

Für das Grundverständnis des Vokabulars ist es aber auch wichtig zu beachten, dass den sichtbaren (geschriebenen) Wortformen im Vokabular-Editor immer gesprochene Formen zu Grunde liegen, auch wenn diese nicht sichtbar sind. Die gesprochenen Formen werden intern durch eine Art Lautschrift repräsentiert, die mit verschiedenen Ausführungen von Zusatzsoftware teilweise sichtbar gemacht werden kann. Was bei dem Erkennungsprozess identifiziert wird, sind demzufolge die gesprochenen Formen beziehungsweise die lautlichen Repräsentationen der Wörter und Wortformen. Erst bei der Umsetzung der gesprochenen Rede in geschriebenen Text werden die geschriebenen Formen ausgegeben, jeweils gemäß ihrer Zuordnung, wie oben beschrieben, und möglicherweise modifiziert durch geltende Formatierungsregeln (Datumsangaben, Währungen usw.).


2. Benutzerdefinierte Wörter

Die Liste der vom Hersteller zusammengestellten aktiven Wortformen basiert auf der Analyse eines relativ großen Textkorpus, bestehend aus Nachrichtentexten, Artikeln, Gebrauchsliteratur usw., aber auch teilweise auf Materialien, die von Anwendern zur Verfügung gestellt worden sind. Entscheidend für die Auswahl ist das Kriterium der Verwendungshäufigkeit. Dadurch soll gewährleistet werden, dass möglichst viele Anwender eine bestimmte Art von Texten möglichst problemlos diktieren können sollen. Der überwiegende Teil der Eingangstexte ist allerdings in Berichtsform in wohlstrukturierter Formulierung verfasst, dialogische und umgangssprachlich formulierte Texte sind nicht oder kaum repräsentiert.

Aus diesen Voraussetzungen ergeben sich selbstverständlich sofort Beschränkungen, die immer dann erheblich zum Tragen kommen, wenn Wörter verwendet werden sollen, die im Vokabular nicht enthalten sind. Dies trifft insbesondere dann zu, wenn Eigennamen, Fachausdrücke und Abkürzungen verwendet werden müssen, es kommt allerdings auch oft vor, dass flektierten Wortformen ergänzt werden müssen.

Wie bereits weiter oben ausgeführt, steht dafür allerdings genügend Raum zur Verfügung, durch den Benutzer nachträglich hinzugefügte Wörter werden im Vokabular-Editor mit einem roten Stern markiert, können dort separat gelistet werden, der komplette Bestand der benutzerdefinierten Wörter kann mittels zur Verfügung stehenden Menüfunktionen in eine Liste exportiert, überarbeitet und importiert werden.

Je nachdem, welche Art von Texten jedoch verfasst werden sollen, kann unter diesen Voraussetzungen der Bestand der benutzerdefinierten Wörter geradezu als produktiver Kern und kostbarstes Gut bei der Personalisierung und Anpassung des Benutzerprofils angesehen werden, dies umso mehr, wenn in den Aufbau des benutzerdefinierten Vokabulars viel Mühe und Zeit investiert werden muss.

Es ist daher ratsam, die benutzerdefinierten Wörter, wie oben beschrieben, regelmäßig zu pflegen und die Wortlisten zu sichern, falls sie zu einem späteren Zeitpunkt in ein neues Benutzerprofil importiert werden müssen.


3. Geschriebene Form - gesprochene Form

Wie bereits oben ausgeführt, ist jeder geschriebenen Wortform implizit eine gesprochene Form (Aussprache) unterlegt. Die Aussprachen ergeben sich in der Regel aus dem Schriftbild der geschriebenen Formen. Ausnahmen davon sind aber zum Beispiel Abkürzungen (usw. = und so weiter), oder auch Wörter aus anderen Sprachen, etwa "Internet-Provider"; in diesen Fällen sind die zu Grunde liegenden Aussprachen dem Gebrauch angepasst.

Wenn ein benutzerdefiniertes Wort hinzugefügt wird, wird automatisch eine implizite Aussprache generiert, nach Umkehrung einer Regel "sprich wie du schreibst", oder anders formuliert nach den so genannten "LTS (Letter To Sound)-Regeln". Dies kann aber bei benutzerdefinierten Wörtern leicht dazu führen, dass die automatisch generierten Aussprachen nicht dem entsprechen, wie tatsächlich gesprochen wird, insbesondere bei lateinischen oder griechischen Fremdwörtern, aber bei Kunstwörtern.

In solchen Fällen kann man die Aussprachen oder entweder im Vokabular-Editor trainieren - dies kann hierbei erforderlich sein, im Unterschied dazu ist es bei den vorab bereitgestellten Wörtern selten der Fall-, oder ihnen zur Sicherheit eine separate gesprochene Form beigeben, die in lautmalerischer Weise die Aussprache umschreibt. Beispiel:

RecoTec = reko teck.

Die gesprochene Form kann allerdings auch mehr oder weniger und sogar vollständig von der geschriebenen Form abweichen, Beispiele:

De- und Remontage = de und Remontage
1. OG = OG eins
Leistungsverzeichnis = LV

Für die gesprochenen Formen sollten stets Wörter oder Wortformen verwendet werden, die intuitiv zu verwenden sind, gut erkannt werden und sich in den natürlichen Diktierfluss einfügen. Doppelformen sind allerdings möglichst zu vermeiden, denn je eindeutiger die Zuordnung bei der Erkennung ist, desto zuverlässiger ist die Umsetzung.


4. Worteigenschaften

Im Vokabular-Editor können für jeden Eintrag spezielle Eigenschaften festgelegt werden, wodurch dessen Formatierung oder Schreibweise umdefiniert werden kann. Zusätzlich können dafür besondere Bedingungen festgelegt werden, bei deren Voraussetzung die Formatierung des Wortes verändert werden kann.

Beispiele dafür sind etwa die Wörter "Stunden" oder "Meter", die nach einer Zahl nicht als Wörter, sondern als Maßeinheiten formatiert werden, zum Beispiel in "2 h" oder "4 m". Wohlgemerkt, der Spracherkenner "hört" nach wie vor "zwei Stunden", aufgrund der festgelegten Regeln wird dieser Ausdruck aber anders formatiert. In solchen Fällen also würde es zum Beispiel nichts bewirken, wenn man das Zeichen "h" als zusätzliche (geschriebene) Form, zusätzlich mit einer gesprochenen Form "Stunden", dem Vokabular hinzufügen würde. Dann würde nämlich der oben angesprochene Effekt eintreten, das Wort "Stunden" wäre doppelt vorhanden, und der Spracherkenner wüsste nicht zwischen diesen beiden Formen zuverlässig zu unterscheiden. Hier hilft nur der klare Bezug auf ein und dieselbe Wortform, nämlich "Stunden" als geschriebener Form, die entweder als Wort oder als Maßeinheit zu verwenden ist, je nachdem, ob ihr eine Zahl vorausgeht oder nicht.

Je nachdem, zu welchem Zweck die Software eingesetzt wird, kann aber insbesondere diese Eigenschaft bei vielen, über die bereits mitgelieferten Formatierungen hinausgehenden, Worteinträgen als eines der stärksten Mittel zur Anpassung an die individuellen Diktierbedürfnisse betrachtet werden.

Wer sich bei seinen Texten beispielsweise häufig auf nummerierte Fotos oder Zeichnungen zu beziehen hat, kann die Eigenschaften dieser Wörter so einstellen, dass darauf folgende Zahlen grundsätzlich als Ziffern formatiert werden, zum Beispiel "Foto 4 - Zeichnung 8". Wer häufig Seitenangaben verwendet, kann die Eigenschaften des Wortes "Seite" so einstellen, dass darauf folgende Zahlen grundsätzlich als Ziffern formatiert werden, und das Wort selbst als "S.", mittels Hinzufügen einer alternativen Schreibweise, wer bestimmte Wörter grundsätzlich als Abkürzungen formatiert haben möchte, kann diese ebenfalls als alternative Schreibweise dem betreffenden Wort hinzufügen, und vieles mehr.

Die hier präsentierten Beispiele sollen lediglich Anreize liefern, sich im Fall von Erkennungsproblemen oder aber für spezielle Einzellösungen einmal intensiv mit den Worteigenschaften im Vokabular-Editor zu befassen.

Auch hier lautet die Grundregel: Doppelformen vermeiden, stattdessen von dem ausgehen, was bereits vorhanden ist, und die vorhandenen Einträge gegebenenfalls modifizieren.


5. Anpassung an den Schreibstil

Bei gleich klingenden Wörtern und Ausdrücken kommt es sehr häufig vor, dass zwei oder mehr Hypothesen miteinander konkurrieren, so dass der Spracherkenner seine Entscheidung letztendlich nur aus dem jeweiligen Kontext heraus treffen kann und muss. Voraussetzung dafür ist allerdings, dass das Diktat auch mit entsprechend ausreichendem Kontext abgeliefert wird.

Für jeden Worteintrag sind Kontextinformationen hinterlegt, wo deren Wahrscheinlichkeit des Auftretens für sich betrachtet, jedoch auch im Zusammenhang mit anderen Wörtern Rechnung getragen wird. Die mitgelieferten Kontexte können durch Analyse eigener Texte modifiziert werden, für benutzerdefinierte Wörter sind von vornherein keinerlei Kontextinformationen vorhanden.

Sofern der Anwender einen mehr oder weniger kontingenten Wortschatz verwendet und mehr oder weniger gleich bleibende Themen behandelt, und wenn er weiterhin über eine gewisse Anzahl selbst verfasster Dokumente verfügt, wo diese Aspekte wieder zu finden sind, ist von der Analyse solcher Dokumente eine nicht unerhebliche Anpassung an den individuellen Schreibstil zu erwarten.

Zum einen können dabei sogleich die für den Anwender typischen benutzerdefinierten Wörtern extrahiert werden, und diese werden während der Analyse zusätzlich im Kontext betrachtet. Der Menüpunkt dafür lautet "Wörter aus Dokumenten dem Vokabular hinzufügen" im Erkennungscenter.

Vor Durchführung dieser Funktion sollten die Dokumente jedoch sorgsam geprüft werden, auf Rechtschreibfehler, Stilistik, überflüssige Eigennamen, Abkürzungen usw., und die Dokumente sollten am besten als TXT-Dateien abgespeichert werden. Bereits bei einer Analyse von circa 100 Textseiten, entsprechende Qualität vorausgesetzt, ist eine deutliche Verbesserung der Erkennungsgenauigkeit und Anpassung an den individuellen Schreibstil mit Sicherheit gegeben.


Zusammenfassung: Das Vokabular ist, bildlich gesprochen, der Nukleus der Spracherkennung, seine Aufbereitung und Instandhaltung somit von elementarer Bedeutung für die Effizienz der Software.

DPI 15 (15.00.000.076) auf Windows 8.1 (64-bit)
SpeechMike Premium (LFH3500) mit Philips Device Control Center (3.0)
Intel i7 2600 QuadCore - 3.4 GHz - 8 MB L3-Cache - 6 GB RAM