1 Zuletzt bearbeitet von Marius Raabe (13.05.2011 13:14:19)

Thema: 2. Schritt: Der erste Start

2. Schritt: Der erste Start


Grob zusammengefasst ist Spracherkennungssoftware ein alternatives Eingabegerät zur vollständigen Bedienung des Computers anstelle von Tastatur und Maus. Sämtliche dabei zur Verfügung stehenden Funktionalitäten sind über die so genannte "Dragon-Leiste" erreichbar, weshalb sie zunächst etwas genauer betrachtet werden sollte.

Die Dragon-Leiste

Sobald das Programm gestartet wurde und auf Eingaben wartet, befindet sich die Dragon-Leiste irgendwo auf dem Desktop. Ihre Erscheinungsweise kann in vielfacher Weise geändert werden, standardmäßig sieht sie so aus wie im unten stehenden Beispiel, "Frei beweglich", und es ist zu empfehlen, sie am Anfang zunächst so zu belassen und sie jeweils dort zu positionieren, wo sie nicht stört. Im Beispiel habe ich sie aber in ein Textfenster gezogen, um zugleich verschiedene Dinge zu erläutern.


http://img808.imageshack.us/img808/5193/bild1zf.png
Bild 1 (Version 11-angepasst von Marius Raabe)


Am linken Rand der Leiste befindet sich das Mikrofon-Symbol (hier zusätzlich rot umrandet). Das Symbol zeigt an, in welchem Zustand sich das Mikrofon befindet, wie hier zu sehen (grün/senkrecht) ist das Mikrofon eingeschaltet, wenn es aus ist, ist das Symbol rot/waagerecht, im "Schlafmodus" ist das Mikrofon gelb und steht diagonal. Eine verkleinerte Version dieses Symbols befindet sich rechts unten in der Task-Leiste von Windows (bei Windows 7 standardmäßig verborgen).

Das Mikrofon kann auf verschiedene Weisen ein- und ausgeschaltet werden, durch direktes Klicken auf dieses Symbol, ebenso auf das Mini-Symbol in der Task-Leiste, oder aber über die Plus-Taste auf der numerischen Tastatur (Standardeinstellung, die aber geändert werden kann).

Es ist wichtig zu beachten, dass die Software immer dann, sobald das Mikrofon eingeschaltet ist, auf Eingaben wartet und jegliche Äußerung auch als solche interpretiert!

Etwas weiter rechts befindet sich die so genannte Select&Say-Anzeige, hier zusätzlich blau umrandet, die immer dann grün leuchtet, wenn man sich in einem Textfenster oder in einem Eingabefeld einer so genannten Standard-Anwendung befindet. Ansonsten bleibt diese Anzeige grau. Bei Standard-Anwendungen stehen alle Funktionalitäten der Texteingabe und -bearbeitung zur Verfügung, insbesondere zum Markieren und Editieren von Text mittels Diktierbefehlen. Standard-Anwendungen sind zum Beispiel Microsoft Word, Outlook, Internet Explorer WordPad, Notepad, aber auch das eingebaute DragonPad, welches in diesem Beispiel verwendet wird. Um es zu starten, klickt man in der Dragon-Leiste auf "Extras - DragonPad", oder verwendet den Sprachbefehl "DragonPad öffnen" oder eine Variante davon.

Nicht-Standard-Anwendungen sind dagegen zum Beispiel Firefox und die meisten web-basierten Editoren wie Thunderbird und viele andere. Anfängern ist dringend anzuraten, zu Beginn solche Anwendungen unbedingt zu meiden.

Zwischen dem Mikrofon-Symbol und der Select&Say-Anzeige befindet sich die Lautstärkeanzeige, die hier im Bild am linken Rand (kaum sichtbar) gelb ist, was signalisiert, dass das Mikrofon eingeschaltet ist und auf Eingaben wartet. Die Anzeige wird grün und beginnt zu flackern, wenn gesprochen wird, und wird rot, wenn die Lautstärke zu hoch ist.

Weiterhin sind auf der Dragon-Leiste die diversen Menüs, jeweils mit Untermenüs, abgebildet, die später im einzelnen noch betrachtet werden sollen.



Das erste Diktat

Um einen Text zu diktieren, benötigt man ein Textverarbeitungsprogramm. Der Einfachheit halber nehmen wir hierzu das bereits oben erwähnte DragonPad. Wir wollen gleich versuchen, alles erforderliche ohne Tastatur und Maus zu erledigen, und sagen deshalb "öffne DragonPad". Wenn das Programm dann jedoch nicht gestartet wird, obwohl klar und deutlich und ohne eine Pause zwischen den Wörtern gesprochen wurde, versuchen wir es noch einmal, indem wir "DragonPad" nicht "englisch", sondern "deutsch" aussprechen. Wenn es dann immer noch nicht gelingt, verlieren wir nicht den Mut - das kommt vor am Anfang. Dann schalten wir das Mikrofon aus, greifen doch zur Maus und klicken auf "Extras - DragonPad", und dann startet der Editor.

Diktieren Sie bitte als nächstes den unten stehenden Text, genauso wie er abgebildet ist, in zusammenhängenden Äußerungen lediglich mit Pausen, wenn dies wie folgt kenntlich gemacht ist: [Pause]. Achten Sie bitte auf eine möglichst klare und deutliche Aussprache und gleich bleibende Artikulation. Lesen Sie den Text zunächst in Ruhe durch, bevor Sie das Mikrofon einschalten. Zwischendurch, aber auf jeden Fall am Ende schalten Sie das Mikrofon wieder aus. Sie müssen nicht unbedingt auf den Bildschirm schauen, konzentrieren Sie sich aber unbedingt auf den Text.


[Mikrofon einschalten]
dies ist der erste Absatz Komma der nur aus einer Zeile besteht Punkt neuer Absatz [Pause]
dies ist ein weiterer Absatz Komma der aus zwei Zeilen besteht Punkt neue Zeile [Pause]
hier beginnt die nächste Zeile Auslassungszeichen
[Mikrofon ausschalten]


Wenn Sie erfolgreich waren, sieht der Editor dann genau so aus:


http://img29.imageshack.us/img29/106/bild2rj.png
Bild 2 (Version 11-angepasst von Marius Raabe)


Falls Sie während des Diktates doch gelegentlich auf den Bildschirm geschaut haben, dürfte Ihnen aufgefallen sein, dass zwischendurch ein kleines Textfenster mit gelbem Untergrund zu sehen war, dessen Inhalt sich permanent geändert hat. Es handelt sich hierbei um das so genannte Erkennungsfenster, worin abgebildet wird, welche Texteingabe gerade vom Programm bearbeitet wird. Wenn Sie sich noch einmal Bild 1 oben anschauen, stellen Sie fest, dass im Erkennungsfenster genau der Text abgebildet ist, der auch in das Dokument übertragen wurde, jedoch etwas anders geschrieben. Am Anfang des Satzes wird die Großschreibung erst beim Formatieren des Textes realisiert, und das Wort "Auslassungszeichen" wird nicht ausgeschrieben, sondern durch drei Punkte ersetzt. Auch die Erscheinungsweise des Erkennungsfensters kann geändert werden.

Schalten Sie jetzt das Mikrofon noch einmal ein und sagen Sie "Erkennungsansicht anzeigen", und schalten Sie das Mikrofon danach sofort aus. Das darauf folgende Fenster müsste, abhängig davon, was das Programm verstanden hat, etwa so aussehen wie dieses hier:


http://img405.imageshack.us/img405/1610/bild3ck.png
Bild 3 (Version 11-angepasst von Marius Raabe)


In der Erkennungsansicht werden sämtliche Äußerungen innerhalb einer Sitzung, sofern es der Speicherplatz zulässt, in Form einer Liste erfasst. Zusammenhängende Äußerungen befinden sich dann immer auf einer separaten Zeile. In diesem Beispiel können Sie sehen, dass ich den ersten Satz des Beispieltextes oben in der Liste markiert habe, wodurch die zusammenhängende Äußerung unten in der Anzeige abgebildet wird. In der Erkennungsansicht werden aber nicht nur Texteingaben, sondern auch Befehle gelistet, wie Sie am letzten Eintrag erkennen können, wo der Befehl zu sehen ist, mit dem die Erkennungsansicht aufgerufen wurde.

Die Erkennungsansicht ist insbesondere dann wichtig, wenn überprüft werden soll, warum eine Texteingabe oder ein Befehl nicht richtig erkannt wurde. Sie kann auch über das Menü der Dragon-Leiste aufgerufen werden, unter "Wörter - Erkennungsansicht anzeigen..."

Falls aber der Text nicht richtig in das Dokument übertragen wurde, weil vielleicht das eine oder andere Wort nicht richtig verstanden - oder nicht richtig diktiert - wurde, wollen wir dies gleich korrigieren, indem wir dazu die entsprechenden Diktierbefehle verwenden.


Korrigieren und Editieren

Hinweis: Die folgenden Beispiele funktionieren nur dann wie beschrieben, wenn die Programm-Optionen so gelassen werden, wie sie standardmäßig eingestellt sind. Deren Beibehaltung wird zu Beginn sowieso empfohlen.

Nehmen wir einmal an, im obigen Beispiel wurde gleich das erste Wort falsch verstanden, anstelle von "Dies ist" wurde "Die ist" geschrieben. Um dies zu verbessern, bewegen wir den Cursor direkt vor das falsch verstandene Wort, indem wir beispielsweise sagen "Cursor vor die ist" (das Gegenstück lautet "Cursor hinter..."), oder in diesem Fall auch einfach "zum Anfang". Als nächstes sprechen wir den Befehl "korrigier das", und dann wird möglicherweise, was aber von der jeweiligen Sprechweise abhängt, der Bildschirm wie folgt aussehen:


http://img163.imageshack.us/img163/9155/bild4g.png
Bild 4 (Version 11-angepasst von Marius Raabe)


Hier können wir zugleich erkennen, dass in diesem Fall - wir haben uns ja bemüht, die Sätze zusammenhängend zu sprechen - die komplette Äußerungen markiert wird und dazu entsprechende Korrekturalternativen vorgeschlagen werden. Zumeist ist die beabsichtigte Variante dort schon enthalten, diese können wir dann einfach auswählen, indem wir den daneben aufgeführten Befehl sprechen, in dem Fall also "nimm 1". Wir haben aber noch weitere Möglichkeiten an dieser Stelle, die im unteren Teil des Fensters aufgeführt sind und sich im Grunde selbst erklären.

Ist keine der angebotenen Alternativen die passende, sagen wir dann als nächstes "schreib das", und dann würde zum Beispiel das folgende Fenster erscheinen:


http://img841.imageshack.us/img841/7167/bild5ek.png
Bild 5 (Version 11-angepasst von Marius Raabe)


An dieser Stelle können wir entweder den Cursor mit der Maus hinter dem ersten Wort positionieren und den fehlenden Buchstaben (s) mittels Tastatur eingeben, oder aber - wir wollten ja alles mit Sprachbefehlen erledigen! - diktieren: zum Zeilenanfang, drei Zeichen nach rechts, Siegfried. (Einzelne Buchstaben können zwar als solche gesprochen werden, werden aber immer zuverlässiger erkannt, wenn das so genannte "Funkalphabet" dazu verwendet wird.)

In dieser Weise können wir alle entstandenen Fehler korrigieren, bis der Text so aussieht, wie wir es wünschen. Der Vorteil darin, gegenüber Einsatz von Tastatur und Maus, ist nicht nur, dass wir auf Dauer damit schneller sind und effizienter werden, und unsere Gesundheit schonen selbstverständlich, sondern dass das Programm auf diesem Weg auch aus den Verbesserungen lernt und in aller Regel im Laufe der Zeit immer weniger Fehler machen wird.

Wichtig aber ist, dass wir nur solche Fehler auf diese Weise verbessern, die auf falsche Umsetzung beruhen, nicht aber darauf zurückzuführen sind, dass wir falsch diktiert haben. Wenn dies der Fall ist, was wir auch mittels Play-back im Zweifelsfall überprüfen können, oder aber insbesondere dann, wenn wir den Text nachträglich noch ändern, machen wir auch das ebenfalls mit Sprachbefehlen.

Hierzu markieren wir einfach die betreffenden Passagen, entweder wortweise oder zusammenhängend, mit dem Befehl "markier [Wort]" beziehungsweise "markier [Wort] bis [Wort]". Sobald die Markierung so hergestellt ist, wie es uns vorschwebt, sprechen wir einfach den neuen Text darüber, die Markierung wird durch das neue Diktat ersetzt. Üben Sie dies ein wenig, verwenden sie aber zunächst immer nur einfache und leicht auszusprechende Beispiele, bis sie sich einigermaßen sicher in der Bedienung der hier beschriebenen Funktionen sind.


Speichern des Dokuments

Wenn wir mit der Korrektur und Überarbeitung des Textes fertig sind, müssen wir das Dokument selbstverständlich noch speichern, und verwenden auch hierzu wieder die entsprechenden Sprachbefehle.

Bei DragonPad sprechen wir einfach den Befehl "Datei speichern" (das gleiche gilt für Word), dann erscheint der übliche Dialog, den wir auch aus der Verwendung der Maus kennen. Auch alle weiteren Eingaben, wie etwa die des Dateinamens, aber auch zur Bestätigung, können mittels Diktat erfolgen, indem einfach das gesagt wird, was zu sehen ist. Diese Funktionalität nennt man auch Say what you see. Wenn wir alles erledigt haben, sagen wir „Fenster schließen“, schalten das Mikrofon aus, und atmen erst mal tief durch…

Gratulation! Sie haben nun Ihren ersten Text vollständig mittels Diktat erstellt, korrigiert oder überarbeitet, und das Dokument abgespeichert - und haben dazu keinen einzigen Tastenschlag tun müssen! (Wenn aber doch, wiederholen Sie einfach die Beispiele von Anfang an, bis Ihnen dies gelingt.)

DPI 15 (15.00.000.076) auf Windows 8.1 (64-bit)
SpeechMike Premium (LFH3500) mit Philips Device Control Center (3.0)
Intel i7 2600 QuadCore - 3.4 GHz - 8 MB L3-Cache - 6 GB RAM