Sie sind vermutlich noch nicht im Forum angemeldet - Klicken Sie hier um sich kostenlos anzumelden Impressum 
Sie können sich hier anmelden
Dieses Thema hat 3 Antworten
und wurde 13 mal aufgerufen
 Fragen zur Anwendung
R.Wilke Offline



Beiträge: 6.119

10.09.2010 21:56
RE: Was gibt es Neues in Version 11? Zitat · Antworten

Hallo zusammen,

nach den ersten mancherorts schon veröffentlichten Berichten und Meinungen zur neuen Version 11, in unterschiedlicher Form und Qualität, möchte ich nun dazu übergehen, an dieser Stelle gezielt auf konkrete Details und Neuerungen einzugehen, die für die Anwender von Interesse sein dürften, wenngleich in loser Folge. Um rege Beteiligung derer, die die neue Version schon verwenden, bitte ich recht herzlich, Austausch und Diskussion ist ausdrücklich erwünscht.

Den Anfang möchte ich mit der Vorstellung der völlig neu gestalteten Erkennungsansicht (recognition history) machen, die in der aktuellen Fassung wesentlich mehr Informationen liefert als zuvor. Am besten verdeutliche ich das mit einem Screenshot. (Hinweis: ich verwende zur Zeit noch die englische Version.)



Uploaded with ImageShack.us


Nunmehr werden nicht nur die diktierten Äußerungen gelistet, zugleich wird angezeigt, ob es Text- oder Befehlsdiktat war, und die Uhrzeit, was sinnvoll sein kann bei der Überprüfung fehlerhafter Erkennung oder bei nachträglicher Korrektur.

Ebenso in der Erkennungsansicht gelistet werden die - in Version 11 neu hinzugekommenen - Warnungen, wenn Probleme mit dem Eingabegerät festgestellt werden. - Dazu bei anderer Gelegenheit mal mehr.

Richtig interessant aber wird es, wenn die gesammelten Daten mittels der Speicher-Funktion in eine TXT-Datei exportiert werden, dabei tauchen noch weitaus umfassendere Informationen auf. Hierzu ein Beispiel.

Zitat
Testing Performance | Mon 2010-08-23 | 01:51:38.050 | uD 5201 | Nd 0 | sN 15 | cD 0 | wF 0x00 | aF 0x00 | dA 0.0 [67232] | sA 15.2 [67232] | D | I dictate this sentence in order to verify the value of this testing tool



Hier eingefügt ist nur eine einzelne Zeile aus der exportierten Datei, in Detail-Form, worin zusätzlich die jeweils aktive Anwendung, Datum und Uhrzeit, einige sehr kryptische Codes, die für den Support benötigt werden können, und schließlich der diktierte Text selbst aufgeführt werden.

Was diese Zeichen im einzelnen besagen, da bin ich mir noch nicht ganz schlüssig, mit Ausnahme der von mir rot markierten Stelle, nämlich "uD 5201". Das steht zweifellos für "utterance duration" (Dauer der Äußerung, und der angegebene Wert ist die Länge der Dauer (des Diktates) in Millisekunden.

Woher ich das weiß? - Nun, nachdem ich meinen ersten Verdacht in der Richtung geschöpft hatte, fiel mir ein, dass ich doch ein wirklich genaues Tool habe, mit dem unter anderem solche Dinge gemessen werden. Deshalb unten eingefügt der Screenshot vom Performance Testing Tool, worin ich die oben aufgeführte Äußerung diktiert habe.

Für Fragen dazu stehe ich gerne zur Verfügung.

Grüße
Rüdiger Wilke



Uploaded with ImageShack.us

_______________________________________

DPG 15.6 (15.60.200.015) auf Windows 10 Pro (64-bit)
SpeechMike Premium (LFH3500) + SpeechMike II
HP ZBook 17 G2 (Refurbished) - i7-4910qm - 8MB SmartCache - 32 GB RAM - 512 GB SSD - 1 TB HSSD - 2 TB HDD

R.Wilke Offline



Beiträge: 6.119

03.10.2010 00:07
#2 RE: Was gibt es Neues in Version 11? Zitat · Antworten

Als weitere, meines Erachtens überaus sinnvolle Neuerung, sofern sie hält, was sie verspricht, möchte ich eine relativ frische Entdeckung präsentieren, wenngleich sie in der Produktankündigung schon erwähnt wurde, "frisch" bezieht sich somit darauf, dass ich nun den "Beweis" dafür entdeckt habe.

Wer auf den o.g. Text aus der Erkennungsansicht schaut, wird sehen, dass in der Zeile für die betreffende Äußerung auch ein Wert namens "sN" aufgeführt ist. Lange Zeit war mir nicht ganz klar, was sich dahinter verbirgt, anhand von Untersuchungen der Dragon Log-Datei, wo ebenfalls sämtliche Äußerungen vollständig in der selben Weise erfasst werden, ist es aber nun eindeutig zu beschreiben.

Es handelt sich bei "sN" um die sog. Signal-To-Noise-Ratio, um das Verhältnis zwischen dem Gesamt-Eingangssignal und dem Hintergrundrauschen, oder auch um die Differenz dieser beiden Größen, woraus sich der letztlich verwertbare Anteil des Eingangssignal ergibt. Auf der Hand liegt, dass wenn der "lesbare" Anteil zu gering wird, weil das Sprachsignals im Verhältnis zu leise wird, der Spracherkennung nicht genügend Material zur Verfügung hat, um einwandfrei arbeiten zu können.

In den Versionen bis Version 10 wurde dieser Wert beim Audio-Setup nicht nur ausgemessen, sondern am Ende auch angezeigt. Das Setup wurde als erfolgreich bewertet, wenn ein Wert von mindestens 15, was DB entspricht, erzielt wurde. In Version 11 wird der Wert am Ende nicht mehr angezeigt, aus gutem Grund, wie ich finde, weil viele Anwender dem Wert falsche Bedeutung zugewiesen haben, unter anderem die Qualität eines Mikrofons daran festmachen wollten, was wenig zielführend war, da die Messung praktisch jedes Mal anders ausgefallen ist, und auch künstlich verfälscht werden konnte.

Außerdem, und das zeigt sich nun ganz klar, ist im praktischen Diktat genau dieser Effekt ebenfalls wirksam, nämlich dass bei jeder Äußerung praktisch ein abweichender Wert vorherrschen kann, wie ein Blick in die Log-Dateit offenbart. Bei der o.g. Äußerung wurde somit ein Wert von 15 gemessen, vollständig davon nach oben oder unten abweichende Werte habe ich meiner Datei allerdings ebenso gesehen.

Problematisch aber wird es, wie oben ausgeführt, wenn der Wert zu sehr in den Keller geht, die Entwickler haben offensichtlich entschieden, als unterste Grenze einen Wert von 13 festzulegen (bei direktem Diktat, 14 bei der akustischen Optimierung), ab derer die Äußerung wie folgt in der Log-Datei markiert wird:

21:30:03 Info: skipping utt for OUFA, low SNR
21:30:03 SigQual[ uD 1653 | Nd 0 | sN 13 | cD 0 | wF 0x00 | aF 0x00 | dA 0.0 [9287] | sA 14.8 [9287] | Rt D ]

Interessant ist nur aber, neben der Feststellung des "low SNR" (signal noise ratio), die Meldung, dass OUFA übersprungen wird. Leser dieses Forums werden sich vielleicht erinnern, dass OUFA für "online unsupervised feature adaption" (Anpassung der phonetischen Merkmale, als Grundlage der Phonem-Identifizierung) steht, und anders gesagt sich auf die Funktion bezieht, die ansonsten auch mit dem Schlagwort SilentAdapt benannt wird.

Damit ist gemeint, dass das akustische Modell, genauer die einzelnen Merkmale oder Elemente, aus denen es zusammen gesetzt ist, bei jeder Erkennung automatisch angepasst wird, womit bei Einführung erreicht werden sollte, dass die Erkennung, genauer gesagt die Leistungsfähigkeit der Benutzerdateien, quasi von selbst permanent verbessert werden sollte.

Kehrseite dieser Funktion war aber, dass bei widrigen Bedingungen der Erkennung, also Hintergrundgeräuschen, ungenauer Aussprache oder sonstigen ungüstigen Faktoren ebenso eine Verschlechterung der Erkennungsleistung die Folge sein konnte.

Solche Äußerungen aber, wo zumindest die SNR nicht das hergibt, was für die Anpassung hinsichtlich der reinen Signalqualität benötigt wird, werden nunmehr nicht mehr dabei berücksichtigt, wie aus den Meldungen in der Log-Datei klar hervorgeht.

Als ein Beispiel: ich habe bei einem Profil, welches ich unter eher ziemlich ungünstigen - hauptsächlich für das Diktat - Umständen verwende (zu Hause), festgestellt, dass innerhalb weniger Stunden die Meldung, dass die Qualität zu niedrig ist, mehr als 100 Mal auftaucht, an der Stelle habe ich jedenfalls aufgehört zu zählen.

Mich würde es sehr interessieren, was andere Anwender, die Version 11 schon installiert haben, dazu berichten können.

Übrigens, Ihr seid Pioniere, bisher hat das noch niemand gemacht! Also, helft bitte mit.

Grüße
Rüdiger Wilke

_______________________________________

DPG 15.6 (15.60.200.015) auf Windows 10 Pro (64-bit)
SpeechMike Premium (LFH3500) + SpeechMike II
HP ZBook 17 G2 (Refurbished) - i7-4910qm - 8MB SmartCache - 32 GB RAM - 512 GB SSD - 1 TB HSSD - 2 TB HDD

Marius Raabe Offline



Beiträge: 718

03.10.2010 10:55
#3 RE: Was gibt es Neues in Version 11? Zitat · Antworten

Lieber Rüdiger,

ein sehr interessanter Hinweis! Ich habe meine Log-Datei mal gescannt und festgestellt, dass ich in aller Regel Werte zwischen 22 und 37 erziele, die von dir beschriebene skipping-Meldung habe ich an einem Arbeitstag etwa dreimal gesehen. Interessant wäre, ob sie auch auftritt, wenn eine Äußerung gar nicht verstanden wird, also das insoweit für die Version 11 charakteristische „Bitte sagen Sie das noch einmal“-Fenster erscheint.

Ganz generell finde ich es faszinierend, dem Drachen einmal durch einen Einblick in die Log-Datei bei der Arbeit zuzusehen, das vergrößert den Respekt vor den komplizierten Vorgängen ungemein! Die Beschreibungstiefe scheint in der Version 11 auch nochmals gewachsen zu sein.

Beste Grüße, Marius Raabe

Dragon NaturallySpeaking 11.5 Legal
Windows 7 Prof. 64-Bit, Office 2010, Jarte Plus
Philips SpeechMike II Pro Plus, SpeechMike III, SpeechMike Air, PDCC 2.8
Intel Core2 Quad Q9550, 2,83 GHz, 2x6MB L-2, 8 GB RAM

R.Wilke Offline



Beiträge: 6.119

03.10.2010 11:02
#4 RE: Was gibt es Neues in Version 11? Zitat · Antworten

Lieber Marius,

"Beschreibungstiefe" finde ich sehr zutreffend, aber auch köstlich, und gut gewürzt schmeckt mir alles am besten. Gute Idee das mit dem "Bitte sagen Sie das noch mal". Was das Nachgucken betrifft, braucht man nicht unbedingt in die Log-Datei, die dazu auch immer auf- und wieder zugemacht, und wieder auf usw., das geht auch mit der Erkennungsansicht, und dazu könnte man auch ein Skript machen, nicht wahr?

Schönen Einheitstag wünscht
Rüdiger

_______________________________________

DPG 15.6 (15.60.200.015) auf Windows 10 Pro (64-bit)
SpeechMike Premium (LFH3500) + SpeechMike II
HP ZBook 17 G2 (Refurbished) - i7-4910qm - 8MB SmartCache - 32 GB RAM - 512 GB SSD - 1 TB HSSD - 2 TB HDD

Ähnliche Themen Antworten/Neu Letzter Beitrag⁄Zugriffe
voctool bei Version 13.5?
Erstellt im Forum Fragen zur Anwendung von
6 20.12.2017 11:36
von R.Wilke • Zugriffe: 21
Mehrere Sprachen und mehrere Versionen auf demselben PC
Erstellt im Forum Fragen zur Anwendung von
6 04.06.2017 19:54
von Erhard Kausch • Zugriffe: 44
Installation von/Umstieg auf Version 11.5
Erstellt im Forum Fragen zur Anwendung von
1 05.08.2011 14:43
von R.Wilke • Zugriffe: 32
Erster Erfahrungsbericht mit dem Update auf die Version 11.5
Erstellt im Forum Berichte und Tipps von
8 25.07.2011 15:35
von carstue • Zugriffe: 40
Performance-Einbußen nach dem Upgrade auf Version 11, was tun?
Erstellt im Forum Fragen zur Anwendung von
2 13.05.2011 08:56
von R.Wilke • Zugriffe: 29
Premium oder Professional Version 11?
Erstellt im Forum Fragen zur Anwendung von
8 23.10.2010 22:55
von R.Wilke • Zugriffe: 26
Dragon 11 – kleinere und größere Probleme beim Umstieg von Version 10
Erstellt im Forum Berichte und Tipps von
8 07.10.2010 18:50
von R.Wilke • Zugriffe: 41
Buchstabieren: Unterschied zwischen Version 10 und 11
Erstellt im Forum Fragen zur Anwendung von
12 10.09.2010 01:05
von R.Wilke • Zugriffe: 20
Sensationelle Performance-Steigerung bei der Version 11!
Erstellt im Forum Fragen zur Anwendung von
10 27.08.2010 11:18
von R.Wilke • Zugriffe: 44
 Sprung  
Xobor Ein Kostenloses Forum | Einfach ein Forum erstellen
Datenschutz