Fragen zur Anwendung » Was gibt es Neues in Version 11?

Sie können sich hier anmelden

Dieses Thema hat 3 Antworten
und wurde 81 mal aufgerufen

Fragen zur Anwendung

RE: Was gibt es Neues in Version 11?

Zitat · Antworten

Hallo zusammen,

nach den ersten mancherorts schon veröffentlichten Berichten und Meinungen zur neuen Version 11, in unterschiedlicher Form und Qualität, möchte ich nun dazu übergehen, an dieser Stelle gezielt auf konkrete Details und Neuerungen einzugehen, die für die Anwender von Interesse sein dürften, wenngleich in loser Folge. Um rege Beteiligung derer, die die neue Version schon verwenden, bitte ich recht herzlich, Austausch und Diskussion ist ausdrücklich erwünscht.

Den Anfang möchte ich mit der Vorstellung der völlig neu gestalteten Erkennungsansicht (recognition history) machen, die in der aktuellen Fassung wesentlich mehr Informationen liefert als zuvor. Am besten verdeutliche ich das mit einem Screenshot. (Hinweis: ich verwende zur Zeit noch die englische Version.)

Uploaded with ImageShack.us

Nunmehr werden nicht nur die diktierten Äußerungen gelistet, zugleich wird angezeigt, ob es Text- oder Befehlsdiktat war, und die Uhrzeit, was sinnvoll sein kann bei der Überprüfung fehlerhafter Erkennung oder bei nachträglicher Korrektur.

Ebenso in der Erkennungsansicht gelistet werden die - in Version 11 neu hinzugekommenen - Warnungen, wenn Probleme mit dem Eingabegerät festgestellt werden. - Dazu bei anderer Gelegenheit mal mehr.

Richtig interessant aber wird es, wenn die gesammelten Daten mittels der Speicher-Funktion in eine TXT-Datei exportiert werden, dabei tauchen noch weitaus umfassendere Informationen auf. Hierzu ein Beispiel.

Zitat
Testing Performance | Mon 2010-08-23 | 01:51:38.050 | uD 5201 | Nd 0 | sN 15 | cD 0 | wF 0x00 | aF 0x00 | dA 0.0 [67232] | sA 15.2 [67232] | D | I dictate this sentence in order to verify the value of this testing tool

Hier eingefügt ist nur eine einzelne Zeile aus der exportierten Datei, in Detail-Form, worin zusätzlich die jeweils aktive Anwendung, Datum und Uhrzeit, einige sehr kryptische Codes, die für den Support benötigt werden können, und schließlich der diktierte Text selbst aufgeführt werden.

Was diese Zeichen im einzelnen besagen, da bin ich mir noch nicht ganz schlüssig, mit Ausnahme der von mir rot markierten Stelle, nämlich "uD 5201". Das steht zweifellos für "utterance duration" (Dauer der Äußerung, und der angegebene Wert ist die Länge der Dauer (des Diktates) in Millisekunden.

Woher ich das weiß? - Nun, nachdem ich meinen ersten Verdacht in der Richtung geschöpft hatte, fiel mir ein, dass ich doch ein wirklich genaues Tool habe, mit dem unter anderem solche Dinge gemessen werden. Deshalb unten eingefügt der Screenshot vom Performance Testing Tool, worin ich die oben aufgeführte Äußerung diktiert habe.

Für Fragen dazu stehe ich gerne zur Verfügung.

Grüße
Rüdiger Wilke

Uploaded with ImageShack.us

_______________________________________

Dragon Professional 16 auf Windows 10 Pro und Windows 11
SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo)
HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD

#2 RE: Was gibt es Neues in Version 11?

Zitat · Antworten

Als weitere, meines Erachtens überaus sinnvolle Neuerung, sofern sie hält, was sie verspricht, möchte ich eine relativ frische Entdeckung präsentieren, wenngleich sie in der Produktankündigung schon erwähnt wurde, "frisch" bezieht sich somit darauf, dass ich nun den "Beweis" dafür entdeckt habe.

Wer auf den o.g. Text aus der Erkennungsansicht schaut, wird sehen, dass in der Zeile für die betreffende Äußerung auch ein Wert namens "sN" aufgeführt ist. Lange Zeit war mir nicht ganz klar, was sich dahinter verbirgt, anhand von Untersuchungen der Dragon Log-Datei, wo ebenfalls sämtliche Äußerungen vollständig in der selben Weise erfasst werden, ist es aber nun eindeutig zu beschreiben.

Es handelt sich bei "sN" um die sog. Signal-To-Noise-Ratio, um das Verhältnis zwischen dem Gesamt-Eingangssignal und dem Hintergrundrauschen, oder auch um die Differenz dieser beiden Größen, woraus sich der letztlich verwertbare Anteil des Eingangssignal ergibt. Auf der Hand liegt, dass wenn der "lesbare" Anteil zu gering wird, weil das Sprachsignals im Verhältnis zu leise wird, der Spracherkennung nicht genügend Material zur Verfügung hat, um einwandfrei arbeiten zu können.

In den Versionen bis Version 10 wurde dieser Wert beim Audio-Setup nicht nur ausgemessen, sondern am Ende auch angezeigt. Das Setup wurde als erfolgreich bewertet, wenn ein Wert von mindestens 15, was DB entspricht, erzielt wurde. In Version 11 wird der Wert am Ende nicht mehr angezeigt, aus gutem Grund, wie ich finde, weil viele Anwender dem Wert falsche Bedeutung zugewiesen haben, unter anderem die Qualität eines Mikrofons daran festmachen wollten, was wenig zielführend war, da die Messung praktisch jedes Mal anders ausgefallen ist, und auch künstlich verfälscht werden konnte.

Außerdem, und das zeigt sich nun ganz klar, ist im praktischen Diktat genau dieser Effekt ebenfalls wirksam, nämlich dass bei jeder Äußerung praktisch ein abweichender Wert vorherrschen kann, wie ein Blick in die Log-Dateit offenbart. Bei der o.g. Äußerung wurde somit ein Wert von 15 gemessen, vollständig davon nach oben oder unten abweichende Werte habe ich meiner Datei allerdings ebenso gesehen.

Problematisch aber wird es, wie oben ausgeführt, wenn der Wert zu sehr in den Keller geht, die Entwickler haben offensichtlich entschieden, als unterste Grenze einen Wert von 13 festzulegen (bei direktem Diktat, 14 bei der akustischen Optimierung), ab derer die Äußerung wie folgt in der Log-Datei markiert wird:

21:30:03 Info: skipping utt for OUFA, low SNR
21:30:03 SigQual[ uD 1653 | Nd 0 | sN 13 | cD 0 | wF 0x00 | aF 0x00 | dA 0.0 [9287] | sA 14.8 [9287] | Rt D ]

Interessant ist nur aber, neben der Feststellung des "low SNR" (signal noise ratio), die Meldung, dass OUFA übersprungen wird. Leser dieses Forums werden sich vielleicht erinnern, dass OUFA für "online unsupervised feature adaption" (Anpassung der phonetischen Merkmale, als Grundlage der Phonem-Identifizierung) steht, und anders gesagt sich auf die Funktion bezieht, die ansonsten auch mit dem Schlagwort SilentAdapt benannt wird.

Damit ist gemeint, dass das akustische Modell, genauer die einzelnen Merkmale oder Elemente, aus denen es zusammen gesetzt ist, bei jeder Erkennung automatisch angepasst wird, womit bei Einführung erreicht werden sollte, dass die Erkennung, genauer gesagt die Leistungsfähigkeit der Benutzerdateien, quasi von selbst permanent verbessert werden sollte.

Kehrseite dieser Funktion war aber, dass bei widrigen Bedingungen der Erkennung, also Hintergrundgeräuschen, ungenauer Aussprache oder sonstigen ungüstigen Faktoren ebenso eine Verschlechterung der Erkennungsleistung die Folge sein konnte.

Solche Äußerungen aber, wo zumindest die SNR nicht das hergibt, was für die Anpassung hinsichtlich der reinen Signalqualität benötigt wird, werden nunmehr nicht mehr dabei berücksichtigt, wie aus den Meldungen in der Log-Datei klar hervorgeht.

Als ein Beispiel: ich habe bei einem Profil, welches ich unter eher ziemlich ungünstigen - hauptsächlich für das Diktat - Umständen verwende (zu Hause), festgestellt, dass innerhalb weniger Stunden die Meldung, dass die Qualität zu niedrig ist, mehr als 100 Mal auftaucht, an der Stelle habe ich jedenfalls aufgehört zu zählen.

Mich würde es sehr interessieren, was andere Anwender, die Version 11 schon installiert haben, dazu berichten können.

Übrigens, Ihr seid Pioniere, bisher hat das noch niemand gemacht! Also, helft bitte mit.

Grüße
Rüdiger Wilke

#3 RE: Was gibt es Neues in Version 11?

Zitat · Antworten

Lieber Rüdiger,

ein sehr interessanter Hinweis! Ich habe meine Log-Datei mal gescannt und festgestellt, dass ich in aller Regel Werte zwischen 22 und 37 erziele, die von dir beschriebene skipping-Meldung habe ich an einem Arbeitstag etwa dreimal gesehen. Interessant wäre, ob sie auch auftritt, wenn eine Äußerung gar nicht verstanden wird, also das insoweit für die Version 11 charakteristische „Bitte sagen Sie das noch einmal“-Fenster erscheint.

Ganz generell finde ich es faszinierend, dem Drachen einmal durch einen Einblick in die Log-Datei bei der Arbeit zuzusehen, das vergrößert den Respekt vor den komplizierten Vorgängen ungemein! Die Beschreibungstiefe scheint in der Version 11 auch nochmals gewachsen zu sein.

Beste Grüße, Marius Raabe

Dragon NaturallySpeaking 11.5 Legal
Windows 7 Prof. 64-Bit, Office 2010, Jarte Plus
Philips SpeechMike II Pro Plus, SpeechMike III, SpeechMike Air, PDCC 2.8
Intel Core2 Quad Q9550, 2,83 GHz, 2x6MB L-2, 8 GB RAM

#4 RE: Was gibt es Neues in Version 11?

Zitat · Antworten

Lieber Marius,

"Beschreibungstiefe" finde ich sehr zutreffend, aber auch köstlich, und gut gewürzt schmeckt mir alles am besten. Gute Idee das mit dem "Bitte sagen Sie das noch mal". Was das Nachgucken betrifft, braucht man nicht unbedingt in die Log-Datei, die dazu auch immer auf- und wieder zugemacht, und wieder auf usw., das geht auch mit der Erkennungsansicht, und dazu könnte man auch ein Skript machen, nicht wahr?

Schönen Einheitstag wünscht
Rüdiger

Ähnliche Themen	Antworten/Neu	Letzter Beitrag⁄Zugriffe
Bis zu welchen Versionen läuft Dragon auf WinXP bzw. Win7? Erstellt im Forum Fragen zur Anwendung von Sandy	1	25.09.2023 07:59 von R.Wilke • Zugriffe: 227
DRAGON 15 neues Benutzerprofil anlegen Erstellt im Forum Fragen zur Anwendung von ganzhans	6	19.11.2023 13:55 von R.Wilke • Zugriffe: 254
Dragon Version 13: Diktieren auf englisch? Erstellt im Forum Fragen zur Anwendung von Juebar	2	25.06.2023 15:13 von Juebar • Zugriffe: 179
Version 16 soll Ende Februar erscheinen Erstellt im Forum Berichte und Tipps von Marius_	11	25.02.2023 18:35 von R.Wilke • Zugriffe: 641
Die beste aktuelle Version Erstellt im Forum Fragen zur Anwendung von Uli Hickmann	4	19.09.2022 07:10 von Uli Hickmann • Zugriffe: 524
Dragon Nuance auf Mac High Sierra Update Version 6.0.8 Erstellt im Forum Fragen zur Anwendung von tom009	4	30.08.2022 21:59 von R.Wilke • Zugriffe: 280
Probleme mit der 64-Bit-Version der Desktopapplikationen von MS 365? Erstellt im Forum Fragen zur Anwendung von rc.otto	5	14.06.2022 12:59 von rc.otto • Zugriffe: 285
Welches ist die aktuell ausgereifteste Version auf individual professional Erstellt im Forum Fragen zur Anwendung von Festinalente1975	0	12.04.2022 07:48 von Festinalente1975 • Zugriffe: 430
Alte Version lädt nicht / Worte mit Symbolen werden nicht gespeichert Erstellt im Forum Fragen zur Anwendung von Hannah	8	06.11.2021 06:03 von R.Wilke • Zugriffe: 594
Version für Umwandlung von Diktatdatei in Text Erstellt im Forum Fragen zur Anwendung von Bleickard	0	10.04.2021 10:42 von Bleickard • Zugriffe: 305

Sprung

Anwenderforum für die Dragon-Spracherkennung

Bitte geben Sie einen Grund für die Verwarnung an