1

Thema: 6. Schritt: Diktieren und Korrigieren

6. Schritt: Diktieren und Korrigieren


Nachdem in den vorangegangenen Abschnitten die wichtigsten Grundelemente des Diktierens vorgestellt worden sind, sollen nun immer wiederkehrende Situationen bei der praktischen Verwendung des Programms, wie im Titel beschrieben, behandelt werden.

Fehler bei der Umsetzung sind sicherlich die häufigste Ursache für Handlungsbedarf und Nachbearbeitung. Man sollte sich von der Anzahl der Fehler, insbesondere am Anfang, keineswegs verunsichern lassen. Eine Fehlerquote von bis zu 5 % (5 Wörter von 100) ist noch nicht beunruhigend, auch wenn die Werbung und der Bericht manch eines Anwenders möglicherweise etwas anderes suggerieren.

Ob aber sowohl Programm als auch Anwender Fortschritte in der Verbesserung der Erkennungsgenauigkeit machen, hängt in entscheidender Weise davon ab, wie mit den Fehlern umgegangen wird. Denn nur wenn Korrektur und Nachbearbeitung über die Menüfunktionen bzw. mittels Sprachbefehlen vorgenommen werden, wird sich auf Dauer ein Lerneffekt einstellen.

Fehler ist jedoch nicht gleich Fehler, und je nachdem, um welchen Fall es sich handelt, ist eine andere Vorgehensweise angezeigt. Es sind somit drei verschiedene Szenarien zu unterscheiden, mit den jeweils daraus resultierenden Lösungswegen:

(a) das Wort oder der Ausdruck wurde undeutlich artikuliert, so dass ein anderer Text als intendiert umgesetzt wurde: neu diktieren;

(b) das Wort oder der Ausdruck wurde zwar deutlich artikuliert, stattdessen wurde aber ein ähnlich klingender Text umgesetzt: Korrektur im Kontext;

(c) das intendierte Wort befindet sich nicht im Vokabular und wird durch ein anderes ersetzt oder komplett fallen gelassen: das Wort muss buchstabiert werden, und wenn es öfters benutzt werden soll, ist es sinnvoll, das Wort oder den Ausdruck ins Vokabular aufzunehmen.

Wie aber können wir nun in der Praxis unterscheiden, welcher der drei oben beschriebenen Fälle vorliegt, und damit wissen, wie wir damit umzugehen haben? Insbesondere für den Fall (a), nämlich bei undeutlichem Diktat, sollten wir besser neu diktieren, aber nicht die Korrekturfuntionen verwenden, da dieses Vorgehen im ungünstigsten Fall dazu führen würde, dass das akustische Modell (worin die Aussprachemerkmale des Sprechers gespeichert werden) auf Dauer Schaden nimmt.

Mit etwas Übung und Erfahrung werden wir entweder sogleich erahnen, wo der Fehler lag, oder aber es wird offensichtlich, wenn wir die betreffende Stelle im Korrekturmenü öffnen, anhand der darin aufgeführten Alternativen. Am Anfang, solange wir uns noch nicht so sicher sind, sollten wir jedoch vorzugsweise eine zusätzliche Funktion des Programms nutzen, mithilfe derer wir das Diktat abhören können, zur Vermeidung der oben beschriebenen Situation.

Hierzu muss eine Voreinstellung in den Optionen geändert werden, nämlich der Haken gesetzt werden bei "Extras - Optionen - Korrektur - Diktatwiedergabe bei Korrektur". Dies hat zur Folge, dass jedes mal, wenn das Korrekturmenü aufgerufen wird, die Markierung oder der Kontext, worin sich der Cursor befindet, im Play-back abgespielt wird. Damit ist allerdings eine erhebliche Verzögerung verbunden, und solange das Play-back aktiv ist, können oder sollten keine sonstigen Aktionen durchgeführt werden.

Nach so viel Vorrede soll es nun aber endlich mit der Anwendung weitergehen, und zum besseren Nachvollzug des in der Folge Dargelegten ist es dringend zu empfehlen, das hier präsentierte Beispiel sogleich durchzuarbeiten. Zur Übung wird ein, für unsere Zwecke leicht veränderter, Text aus der Onlinehilfe verwendet. Öffnen Sie bitte DragonPad und diktieren Sie von dem folgenden Text den ersten und den letzten Absatz - nehmen Sie aber bitte auch den Text dazwischen inhaltlich zur Kenntnis.

Hinweis: Die blau markierten Wörter sind Komposita, die noch nicht im Vokabular enthalten sind, aber automatisch gebildet werden, sofern die Kompositabildung aktiviert ist. Die rot markierten Wörter sind ebenfalls nicht im Vokabular enthalten, und sind daher im folgenden von besonderem Interesse.

Das Ziel von Dragon NaturallySpeaking ist es, die Arbeit mit dem Computer zu erleichtern, indem auf Tastatur- und Mausbedienung verzichtet wird. Hierzu muss das Programm in der Lage sein, einen kontinuierlichen Fluss von Sprachlauten zu analysieren und diese Laute als Befehle oder Diktat zu interpretieren. Dieser Interpretationsvorgang wird als Spracherkennung bezeichnet. Der Prozentsatz aller korrekten Interpretationen definiert den Erfolg der Spracherkennung, das heißt die Erkennungsgenauigkeit.

Um eine hohe Erkennungsgenauigkeit zu erzielen, greift Dragon NaturallySpeaking auf mehrere Informationsquellen zu:
- das akustische Modell: ein mathematisches Modell der Lautfolgen, die in der Sprache des Benutzers vorkommen;
- das Vokabular: eine Liste von Wörtern, die das Programm erkennen kann. Jedes Wort im Vokabular hat eine Textform und eine Aussprache;
- das linguistische Modell: statistische Informationen, die mit einem Vokabular verknüpft sind. Dieses Modell definiert, mit welcher Wahrscheinlichkeit bestimmte Wörter oder Wortfolgen im Diktat des Benutzers auftreten.

Wenn Sie einen Benutzer erstellen und trainieren, steht Ihnen ein Standardsatz von Modellen zur Verfügung, die Sie dann an Ihre Sprechweise (das akustische Modell) und Ihren Wortgebrauch (Vokabular und assoziiertes linguistisches Modell) anpassen. Beim Diktieren mit Dragon NaturallySpeaking greift das Programm auf die angepassten Benutzerdateien zurück, um die gesprochenen Wörter zu erkennen.

Wenn Sie, wie ich in diesem Fall, ein neues und untrainiertes Benutzerprofil dazu verwendet haben, werden Sie möglicherweise zu den gleichen, oder zumindest ähnlichen, Ergebnissen gekommen sein, die ich im folgenden vorstellen werde. Betrachten wir zunächst die Umsetzung des ersten Absatzes. (Anmerkung: Die nachfolgenden Bilder zeigen noch das Design der Version 10.)


http://img683.imageshack.us/img683/215/korrektur01.jpg

In diesem Absatz, der immerhin 65 Wörter umfasst, ist lediglich ein einziges Wort falsch erkannt worden: Erkennungsgenauigkeit circa 98,5 %. Es handelt sich um das Wort "Sprachlauten" (zur Verdeutlichung hier rot markiert), dadurch bedingt, dass es noch nicht im Vokabular enthalten ist, wie oben angeführt. Stattdessen wurde geschrieben "Sprachenorten", wobei an dieser Stelle noch nicht klar ist, ob möglicherweise eine zu ungenau Aussprache dafür verantwortlich war. Dies wird aber bei der nun folgenden Korrektur sogleich mit überprüft.

Um ein Wort oder einen Ausdruck zu korrigieren ist es immer am sinnvollsten, den Cursor an die betreffende Stelle zu bewegen, in diesem Fall also vor dem Wort "Sprachenorten" - entweder mit der Maus oder mittels Sprachbefehl "Cursor vor Sprachenorten", um dann mittels Befehl "korrigier das" die komplette Äußerung, innerhalb derer der Fehler aufgetreten ist, im Korrekturmenü aufzurufen. Dadurch wird zugleich der Kontext, innerhalb derer das Wort auftaucht, mit einbezogen. Nach Ausführung der beiden o.g. Befehle sieht das Korrekturmenü wie folgt aus:


http://img213.imageshack.us/img213/8034/korrektur02.jpg


Hierbei fällt zunächst auf, dass die zusammenhängende Äußerung in diesem Fall den Text von "einen kontinuierlichen..." bis "... zu analysieren" umfasst. Bei genauer Betrachtung der angebotenen Alternativen ist förmlich nachzuvollziehen, welche Mühe sich die Erkennung immerhin gegeben hat, den diktierten Ausdruck richtig zu erkennen, letztendlich jedoch vergeblich. Insbesondere bei der Lösung Nr. 3 wird allerdings deutlich, dass es nicht an mangelhafter Aussprache gelegen hat, denn die Variante "sprach laut und" ist phonetisch nahezu mit dem intendierten Ausdruck identisch, allerdings recht unwahrscheinlich, weswegen sie schließlich noch von den Varianten 1 ("Sprachworten") und 2 ("Sprache und") verdrängt wird.

Würden die hier angebotenen Lösungen völlig anders aussehen als das, was wir ursprünglich diktiert hätten, müssten wir es neu diktieren und könnten es hier sogleich tun, indem wir einfach die komplette Markierung direkt durch neues Diktat ersetzen.

Wären wir an dieser Stelle immer noch nicht sicher hinsichtlich der Aussprache, könnten wir nun auch den Befehl "Auswahl wiedergeben" verwenden, um dies zu überprüfen. Aber, es hilft nichts, das gewünschte Wort muss buchstabiert werden, und das geht von hier aus am schnellsten mit "schreib das", wodurch das Buchstabierfenster geöffnet wird. Dieses sieht dann so aus:


http://img163.imageshack.us/img163/4852/korrektur03.jpg


Das falsche Wort ("Sprachenorten") muss nun durch das intendierte "Sprachlauten" ersetzt werden. Das kann man machen, indem man es mit der Maus markiert und mit der Tastatur überschreitet, oder mittels Sprachbefehlen:

drück Ende - setzt den Cursor an das Ende der Zeile
15 Zeichen nach links - setzt den Cursor an das Ende des Wortes "Sprachenorten"
Rücktaste 6 - löscht den Bestandteil "orten"

Stattdessen muss nun die Buchstabenkombination "lauten" eingegeben werden, am besten mittels Diktat der einzelnen Buchstaben oder zur Sicherheit unter Verwendung des Funkalphabets

Ludwig Anton Ulrich Theodor Emil Nordpol

Auf dem Bildschirm sieht das folgendermaßen aus:


http://img242.imageshack.us/img242/4629/korrektur04.jpg


Wenn wir das Wort über das Buchstabierfenster eingegeben haben, erscheint es sogleich im Vokabular und braucht anschließend mit hoher Wahrscheinlichkeit nie wieder korrigiert zu werden:


http://img260.imageshack.us/img260/4348/korrektur05.jpg


Wenden wir uns nun dem zweiten Absatz zu. Bei diesem Beispiel waren einige Fehler mehr zu korrigieren, jedoch fast ausschließlich nur dadurch bedingt, dass die Anredepronomina nicht, wie beabsichtigt, einheitlich in Großschreibung ausgegeben worden sind. Auch solche Korrekturen sind sinnvollerweise über das Korrekturmenü auszuführen, auch dabei ist ein, wenngleich nicht ganz so nachhaltiger, Lerneffekt zu erwarten.

Das folgende Bild zeigt das Korrekturmenü, nachdem der Cursor vor "Ihnen ein Standardsatz..." gesetzt worden ist, die richtige Lösung wird angeboten und kann nun mittels Sprachbefehl "nimm 1" sofort übernommen werden:


http://img130.imageshack.us/img130/4844/korrektur06.jpg


Mit den übrigen, ansonsten gleichartigen Fehlern verfahren wir in gleicher Weise. Interessant aber ist ein weiterer Fehler, nämlich "linguistisches Modell" wird zu "Linguistischesmodell", dadurch bedingt, dass zum einen das Wort "linguistisches" in dieser Form noch nicht im Vokabular enthalten ist, zum anderen "schlägt" hier die automatische Kompositabildung ungewollt zu!

In solchen Fällen hilft uns das Korrekturmenü nicht weiter, wie am folgenden Bild zu sehen ist:


http://img98.imageshack.us/img98/7353/korrektur07.jpg


In diesen Fällen nehmen wir stattdessen den Befehl "trenne...", hier also:

trenne Linguistischesmodell

woraufhin sich sofort das Buchstabierfenster öffnet und uns in aller Regel die richtige Lösung anbietet, wie hier zu sehen ist:


http://img202.imageshack.us/img202/4959/korrektur08.jpg


Wir wählen die richtige Lösung aus, in dem Fall mit "nimm 2", und siehe da, das zuvor unbekannte Wort ist anschließend ebenfalls im Vokabular enthalten:


http://img405.imageshack.us/img405/2164/korrektur09.jpg


Hinweis: Im vorangegangenen Beispiel wurde das Wort "Sprachlauten" mit einem roten Stern markiert im Vokabular aufgenommen, es handelt sich somit um ein "benutzerdefiniertes" Wort. Das Wort "linguistisches" dagegen hat einen grünen Stern erhalten, was bedeutet, dass es zuvor schon im Hintergrundvokabular enthalten war, jedoch erst durch die Korrektur aktiviert wurde.

In beiden Fällen sind die Ergänzungen des Vokabulars nur dadurch entstanden, dass einerseits das Buchstabierfenster verwendet wurde, um die Wörter richtig zu schreiben, andererseits ist die Option "Dem Vokabular Wörter automatisch hinzufügen" unter "Extras - Optionen - Korrektur" im vorliegenden Fall aktiviert (Standardeinstellung). Wenn diese Einstellung deaktiviert ist, werden Wörter nur dann ins Vokabular aufgenommen, wenn sie entweder unmittelbar im Vokabulareditor oder aber über das Menü "Wörter - Neu" beziehungsweise mittels Sprachbefehl "Wort bearbeiten" oder "einzelnes Wort hinzufügen" eingegeben werden.


Zusammenfassung:

Um einen Fehler zu korrigieren, wird:

  • der Cursor vor oder hinter das zu korrigierende Word oder den Ausdruck gesetzt;

  • der Befehl "korrigier das" ausgeführt, um das Korrekturmenü aufzurufen (ggf. mit automatischem Play-back);

  • je nachdem, welche Alternativen angeboten werden, wird

  • entweder eine davon genommen, wenn sie der beabsichtigten enspricht,

  • oder der Ausdruck direkt komplett neu diktiert (wenn die Lösungen stark abweichend sind, was auf ungenaue Aussprache schließen lässt),

  • oder das Buchstabierfenster aufgerufen, wenn die angebotenen Lösungen so ähnlich sind wie beabsichtigt, um den Ausdruck darin zu korrigieren.

DPI 15 (15.00.000.076) auf Windows 8.1 (64-bit)
SpeechMike Premium (LFH3500) mit Philips Device Control Center (3.0)
Intel i7 2600 QuadCore - 3.4 GHz - 8 MB L3-Cache - 6 GB RAM