1

Thema: 9. Schritt: Optimierung der Modelle

9. Schritt: Optimierung der Modelle


Das Thema dieses Abschnitts ist in der Onlinehilfe recht gut erklärt, weswegen sie zunächst einmal auszugsweise (leicht abgeändert) zitiert wird:

Mithilfe der akustischen und Sprach-Optimierung können Sie Folgendes tun:

•    Führen Sie eine akustische Optimierung aus, um Ihre Benutzerdateien durch angesammelte akustische Daten aus Korrekturen und zusätzlichem Training Ihres Benutzer zu bereichern.

•    Führen Sie eine Sprachmodell-Optimierung zur Aktualisierung Ihres Sprachmodells aus. Das Sprachmodell enthält statistische Informationen, die vorhersagen, welche Wörter im Sprachgebrauch eines Benutzers vorherrschen. Sprachmodelloptimierung basiert auf Text, der aus den .DRA-Dateien des Benutzers gewonnen wird, und fügt dem Sprachmodell des Benutzers häufig verwendete Wortfolgen hinzu.

Wenn Sie Korrekturen vornehmen, trainieren oder das Zusatztraining ausführen, speichert Dragon NaturallySpeaking Professional die akustischen und Sprach-Daten in einem Archiv, das zur Verbesserung der Erkennungsgenauigkeit dient. Die akustische und Sprach-Optimierungsfunktion sammelt diese Daten von einer Sitzung zur nächsten.

Gegenüber der normalen Adaption und Korrektur bietet diese Funktion folgende Vorteile:

Die akustische und Sprach-Optimierung berücksichtigt wesentlich mehr Daten zur Verbesserung der Benutzerdateien; zu diesen Daten zählen beispielsweise die akustischen Unterschiede zwischen einem korrigierten und trainierten Ausdruck und dem falsch erkannten Ausdruck.


Zu unterscheiden sind das „Akustische Modell“ und das „Sprachmodell“. Im Akustischen Modell werden die mathematischen Repräsentationen der Sprachlaute (Phoneme) gespeichert. Bei der Anlage eines Benutzerprofils wird ein vom Hersteller aufbereitetes Sprecher-unabhängiges Basismodell verwendet, welches im Laufe der Zeit durch Korrekturen und Optimierungen an den Benutzer weiter angepasst wird.

Auch das mitgelieferte Sprachmodell, worin die statistischen Informationen zur Häufigkeit der einzelnen Wörter und zur Verteilung ihres gemeinsamen Auftretens gespeichert werden, ist vom Hersteller mittels Analyse eines Textkorpus aufbereitet worden. Durch den Gebrauch des Anwenders aber werden die Statistiken permanent verändert, neue Wörter, wozu zu Beginn keine Informationen vorlagen, fließen darin ein und verändern die Kontexte zusätzlich.

Damit das Spracherkennungsprogramm jedoch dauerhaft aus den Eingriffen des Anwenders lernen kann und sich an dessen Aussprache und Sprachgebrauch anpasst, ist die gelegentliche Durchführung der Optimierungen der Modelle dringend anzuraten. Hierzu dient der Menüpunkt "Optimierung der akustischen Modelle oder Sprachmodelle ausführen", im "Erkennungscenter". Nach Aufruf dieser Funktion hat man die Wahl, ob man lediglich das akustische, oder nur das Sprachmodell oder bei der gleichzeitig optimieren möchte. Der Einfachheit halber optimiert man am besten beide Modelle gleichzeitig.

Voraussetzung dafür ist jedoch, dass die Optionen auch entsprechend eingestellt sind, damit die Korrekturen und die Sprachdaten gespeichert werden. Wenn die Voreinstellungen beibehalten werden, ist dies der Fall. Um dies zu überprüfen, kann man unter "Extras - Optionen - Daten" nachsehen, ob dort die Option "Korrekturen im Archiv speichern" aktiviert ist, die Option "Speicherplatz für Benutzerdateien begrenzen" dagegen muss deaktiviert bleiben.

Insbesondere die letztgenannte Option sammelt jeden innerhalb eines Textfensters diktierten Text mitsamt Audiodatei und speichert ihn als DRA-Datei (siehe oben Zitat) in ein dafür vom Programm vorgesehenes Verzeichnis Benutzerprofil. Bei der Durchführung der Optimierung werden diese Dateien, die recht umfangreich werden können, noch einmal vom Spracherkenner umgesetzt, und die dabei verwendeten Aussprachen und Kontexte analysiert und in das Modell geschrieben.

Aus diesem Grunde ist es ebenso wichtig, dass Fehler nach Möglichkeit vollständig und methodisch korrekt verbessert werden, wie in den vorangegangenen Abschnitten beschrieben. Nach Abschluss der Optimierungen nicht mehr benötigte Archivdateien vom Programm beseitigt. Weitere Eingriffe des Benutzers sind somit nicht erforderlich.

In seltenen Fällen jedoch kommt es vor, dass nach Durchführung der Optimierungen die Erkennungsgenauigkeit nicht besser, sondern sogar schlechter wird. Woran dies genau liegt, ist nicht einfach zu sagen, es ist aber sehr wahrscheinlich, dass es mit nicht korrekt ausgeführten Verbesserungen, sehr stark variierenden Aussprachen usw. zusammenhängt.

Aus diesem Grunde ist es ebenso zu empfehlen, grundsätzlich vor Durchführung der Optimierungen noch eine Sicherung des Benutzerprofils vorzunehmen, auf die dann zurückgegriffen werden kann. Abgesehen davon ist es immer anzuraten, regelmäßig Sicherungen anzulegen, falls ein Schaden am Benutzerprofil entsteht.

Wie dabei vorzugehen ist, wird im folgenden Abschnitt behandelt.

DPI 15 (15.00.000.076) auf Windows 8.1 (64-bit)
SpeechMike Premium (LFH3500) mit Philips Device Control Center (3.0)
Intel i7 2600 QuadCore - 3.4 GHz - 8 MB L3-Cache - 6 GB RAM