nach den ersten mancherorts schon veröffentlichten Berichten und Meinungen zur neuen Version 11, in unterschiedlicher Form und Qualität, möchte ich nun dazu übergehen, an dieser Stelle gezielt auf konkrete Details und Neuerungen einzugehen, die für die Anwender von Interesse sein dürften, wenngleich in loser Folge. Um rege Beteiligung derer, die die neue Version schon verwenden, bitte ich recht herzlich, Austausch und Diskussion ist ausdrücklich erwünscht.
Den Anfang möchte ich mit der Vorstellung der völlig neu gestalteten Erkennungsansicht (recognition history) machen, die in der aktuellen Fassung wesentlich mehr Informationen liefert als zuvor. Am besten verdeutliche ich das mit einem Screenshot. (Hinweis: ich verwende zur Zeit noch die englische Version.)
Nunmehr werden nicht nur die diktierten Äußerungen gelistet, zugleich wird angezeigt, ob es Text- oder Befehlsdiktat war, und die Uhrzeit, was sinnvoll sein kann bei der Überprüfung fehlerhafter Erkennung oder bei nachträglicher Korrektur.
Ebenso in der Erkennungsansicht gelistet werden die - in Version 11 neu hinzugekommenen - Warnungen, wenn Probleme mit dem Eingabegerät festgestellt werden. - Dazu bei anderer Gelegenheit mal mehr.
Richtig interessant aber wird es, wenn die gesammelten Daten mittels der Speicher-Funktion in eine TXT-Datei exportiert werden, dabei tauchen noch weitaus umfassendere Informationen auf. Hierzu ein Beispiel.
ZitatTesting Performance | Mon 2010-08-23 | 01:51:38.050 | uD 5201 | Nd 0 | sN 15 | cD 0 | wF 0x00 | aF 0x00 | dA 0.0 [67232] | sA 15.2 [67232] | D | I dictate this sentence in order to verify the value of this testing tool
Hier eingefügt ist nur eine einzelne Zeile aus der exportierten Datei, in Detail-Form, worin zusätzlich die jeweils aktive Anwendung, Datum und Uhrzeit, einige sehr kryptische Codes, die für den Support benötigt werden können, und schließlich der diktierte Text selbst aufgeführt werden.
Was diese Zeichen im einzelnen besagen, da bin ich mir noch nicht ganz schlüssig, mit Ausnahme der von mir rot markierten Stelle, nämlich "uD 5201". Das steht zweifellos für "utterance duration" (Dauer der Äußerung, und der angegebene Wert ist die Länge der Dauer (des Diktates) in Millisekunden.
Woher ich das weiß? - Nun, nachdem ich meinen ersten Verdacht in der Richtung geschöpft hatte, fiel mir ein, dass ich doch ein wirklich genaues Tool habe, mit dem unter anderem solche Dinge gemessen werden. Deshalb unten eingefügt der Screenshot vom Performance Testing Tool, worin ich die oben aufgeführte Äußerung diktiert habe.
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Als weitere, meines Erachtens überaus sinnvolle Neuerung, sofern sie hält, was sie verspricht, möchte ich eine relativ frische Entdeckung präsentieren, wenngleich sie in der Produktankündigung schon erwähnt wurde, "frisch" bezieht sich somit darauf, dass ich nun den "Beweis" dafür entdeckt habe.
Wer auf den o.g. Text aus der Erkennungsansicht schaut, wird sehen, dass in der Zeile für die betreffende Äußerung auch ein Wert namens "sN" aufgeführt ist. Lange Zeit war mir nicht ganz klar, was sich dahinter verbirgt, anhand von Untersuchungen der Dragon Log-Datei, wo ebenfalls sämtliche Äußerungen vollständig in der selben Weise erfasst werden, ist es aber nun eindeutig zu beschreiben.
Es handelt sich bei "sN" um die sog. Signal-To-Noise-Ratio, um das Verhältnis zwischen dem Gesamt-Eingangssignal und dem Hintergrundrauschen, oder auch um die Differenz dieser beiden Größen, woraus sich der letztlich verwertbare Anteil des Eingangssignal ergibt. Auf der Hand liegt, dass wenn der "lesbare" Anteil zu gering wird, weil das Sprachsignals im Verhältnis zu leise wird, der Spracherkennung nicht genügend Material zur Verfügung hat, um einwandfrei arbeiten zu können.
In den Versionen bis Version 10 wurde dieser Wert beim Audio-Setup nicht nur ausgemessen, sondern am Ende auch angezeigt. Das Setup wurde als erfolgreich bewertet, wenn ein Wert von mindestens 15, was DB entspricht, erzielt wurde. In Version 11 wird der Wert am Ende nicht mehr angezeigt, aus gutem Grund, wie ich finde, weil viele Anwender dem Wert falsche Bedeutung zugewiesen haben, unter anderem die Qualität eines Mikrofons daran festmachen wollten, was wenig zielführend war, da die Messung praktisch jedes Mal anders ausgefallen ist, und auch künstlich verfälscht werden konnte.
Außerdem, und das zeigt sich nun ganz klar, ist im praktischen Diktat genau dieser Effekt ebenfalls wirksam, nämlich dass bei jeder Äußerung praktisch ein abweichender Wert vorherrschen kann, wie ein Blick in die Log-Dateit offenbart. Bei der o.g. Äußerung wurde somit ein Wert von 15 gemessen, vollständig davon nach oben oder unten abweichende Werte habe ich meiner Datei allerdings ebenso gesehen.
Problematisch aber wird es, wie oben ausgeführt, wenn der Wert zu sehr in den Keller geht, die Entwickler haben offensichtlich entschieden, als unterste Grenze einen Wert von 13 festzulegen (bei direktem Diktat, 14 bei der akustischen Optimierung), ab derer die Äußerung wie folgt in der Log-Datei markiert wird:
21:30:03 Info: skipping utt for OUFA, low SNR 21:30:03 SigQual[ uD 1653 | Nd 0 | sN 13 | cD 0 | wF 0x00 | aF 0x00 | dA 0.0 [9287] | sA 14.8 [9287] | Rt D ]
Interessant ist nur aber, neben der Feststellung des "low SNR" (signal noise ratio), die Meldung, dass OUFA übersprungen wird. Leser dieses Forums werden sich vielleicht erinnern, dass OUFA für "online unsupervised feature adaption" (Anpassung der phonetischen Merkmale, als Grundlage der Phonem-Identifizierung) steht, und anders gesagt sich auf die Funktion bezieht, die ansonsten auch mit dem Schlagwort SilentAdapt benannt wird.
Damit ist gemeint, dass das akustische Modell, genauer die einzelnen Merkmale oder Elemente, aus denen es zusammen gesetzt ist, bei jeder Erkennung automatisch angepasst wird, womit bei Einführung erreicht werden sollte, dass die Erkennung, genauer gesagt die Leistungsfähigkeit der Benutzerdateien, quasi von selbst permanent verbessert werden sollte.
Kehrseite dieser Funktion war aber, dass bei widrigen Bedingungen der Erkennung, also Hintergrundgeräuschen, ungenauer Aussprache oder sonstigen ungüstigen Faktoren ebenso eine Verschlechterung der Erkennungsleistung die Folge sein konnte.
Solche Äußerungen aber, wo zumindest die SNR nicht das hergibt, was für die Anpassung hinsichtlich der reinen Signalqualität benötigt wird, werden nunmehr nicht mehr dabei berücksichtigt, wie aus den Meldungen in der Log-Datei klar hervorgeht.
Als ein Beispiel: ich habe bei einem Profil, welches ich unter eher ziemlich ungünstigen - hauptsächlich für das Diktat - Umständen verwende (zu Hause), festgestellt, dass innerhalb weniger Stunden die Meldung, dass die Qualität zu niedrig ist, mehr als 100 Mal auftaucht, an der Stelle habe ich jedenfalls aufgehört zu zählen.
Mich würde es sehr interessieren, was andere Anwender, die Version 11 schon installiert haben, dazu berichten können.
Übrigens, Ihr seid Pioniere, bisher hat das noch niemand gemacht! Also, helft bitte mit.
Grüße Rüdiger Wilke
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
ein sehr interessanter Hinweis! Ich habe meine Log-Datei mal gescannt und festgestellt, dass ich in aller Regel Werte zwischen 22 und 37 erziele, die von dir beschriebene skipping-Meldung habe ich an einem Arbeitstag etwa dreimal gesehen. Interessant wäre, ob sie auch auftritt, wenn eine Äußerung gar nicht verstanden wird, also das insoweit für die Version 11 charakteristische „Bitte sagen Sie das noch einmal“-Fenster erscheint.
Ganz generell finde ich es faszinierend, dem Drachen einmal durch einen Einblick in die Log-Datei bei der Arbeit zuzusehen, das vergrößert den Respekt vor den komplizierten Vorgängen ungemein! Die Beschreibungstiefe scheint in der Version 11 auch nochmals gewachsen zu sein.
Beste Grüße, Marius Raabe
Dragon NaturallySpeaking 11.5 Legal Windows 7 Prof. 64-Bit, Office 2010, Jarte Plus Philips SpeechMike II Pro Plus, SpeechMike III, SpeechMike Air, PDCC 2.8 Intel Core2 Quad Q9550, 2,83 GHz, 2x6MB L-2, 8 GB RAM
"Beschreibungstiefe" finde ich sehr zutreffend, aber auch köstlich, und gut gewürzt schmeckt mir alles am besten. Gute Idee das mit dem "Bitte sagen Sie das noch mal". Was das Nachgucken betrifft, braucht man nicht unbedingt in die Log-Datei, die dazu auch immer auf- und wieder zugemacht, und wieder auf usw., das geht auch mit der Erkennungsansicht, und dazu könnte man auch ein Skript machen, nicht wahr?
Schönen Einheitstag wünscht Rüdiger
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD