Fragen zur Anwendung » Performance in DNS 11

Sie können sich hier anmelden

Dieses Thema hat 9 Antworten
und wurde 171 mal aufgerufen

Fragen zur Anwendung

RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Allen Unkenrufen zum Trotz mehren sich die Hinweise darauf, dass die neue Version 11 nicht nur von Besitzern der allerneuesten I7-Prozessoren durchaus passabel verwendet werden kann. Freundlicherweise hat ein Mitglied dieses Forums, Peter Weber, dazu eine Testreihe mit dem von mir dafür entwickelten Testprogramm erstellt, mit dem auf, wie Herr Weber sicherlich bestätigen wird, recht unkomplizierte Weise verlässliche Daten zur Beurteilung der Leistungsfähigkeit des Systems und Installation gewonnen werden können. Eine Auswertung der Daten, die er mir per Log-Datei zur Verfügung gestellt hat, füge ich als Beleg unten an.

Dazu noch einige Erläuterungen. Herr Weber verwendet einen Doppelkernprozessor der Intel-Reihe E6600 mit "nur" 4 MB L2-Cache und 3 GB Arbeitsspeicher. Neben dem Programm habe ich ihm einen Satz von sechs verschiedenen Standardsätzen unterschiedlicher Länge (12-28 Wörter) übergeben mit der Bitte, die Sätze nacheinander in drei unterschiedlichen Stellungen des Reglers "genau versus schnell" zu diktieren, nämlich zunächst mit 50 %, dann mit 25 % und abschließend mit 75 %.

In allen Testläufen hat er verhältnismäßig gute Werte erzielt, was die Performance betrifft, der Faktor aus dem Verhältnis zwischen der Zeit der Verarbeitung durch das Programm geteilt durch die Dauer der Äußerung war stets kleiner als 1. Das bedeutet in der Praxis, dass der Text quasi unmittelbar nach dem Diktat auf dem Bildschirm erscheint.

Im Vergleich dazu verhält es sich auf meinem System, welches geringfügig stärker ausgestattet ist, so, dass ich Faktoren von ca. 0,85 erziele, unter günstigen Voraussetzungen. Für die Dauer der Verzögerung zwischen dem Ende des Diktates und dem Erscheinen des Textes auf dem Bildschirm ist das aber sicherlich zu vernachlässigen.

Ergänzend dazu noch der Bericht, dass ich am Wochende auch Resultate eines Freundes aus Großbritannien erhalten habe, der mit seinem Vierkernprozessor überwiegend Werte zwischen 0,6 und 0,85 erziel hat (Danke Ed).

Beachtenswert aber ist insbesondere die Beobachtung, dass unabhängig von der Reglerstellung die Faktoren fast identisch bleiben und keine zusätzlichen Verzögerungen bei der Stellung des Reglers bei 75 % zu verzeichnen sind. Das bedeutet, dass Herr Weber durchaus von der theoretisch höheren Genauigkeit profitieren kann, ohne Leistungseinbußen in Kauf nehmen zu müssen.

Zu erwähnen sind abschließend noch zwei Punkte. Zunächst ist darauf hinzuweisen, dass Herr Weber ein Benutzerprofil mit dem so genannten BestMatch IV Modell verwendet. An verschiedenen Stellen wurde darauf hingewiesen, dass die schwächeren Systemen möglicherweise auf das ältere BestMatch III Modell zurückgehen sollen. Außerdem hat das Profil abgesehen vom anfänglichen Training bisher keine weiteren Adaptionen erfahren – die Gesamt-Trainingszeit wird beim Test automatisch ermittelt –, den bisherigen Berichten zufolge wird die Leistungsfähigkeit bei weiteren Adaptionen in der Version 11 nochmal deutlich gesteigert.

Zweitens, und auch das ist sicherlich erstaunlich, ist festzustellen, dass die Dauer der Diktate der einzelnen Sätze interessanterweise in allen Testläufen ebenfalls relativ konstant ist, was dafür spricht, dass Herr Weber mit hoher Präzision und im gleich bleibenden Takt diktiert. Nicht zuletzt darin ist einer der Gründe zu sehen, warum auch die Performance relativ gleich bleibend ist, da die Qualität der Eingaben schlussendlich auch darüber entscheidet, nicht nur das System. In Wahrheit testen wir nämlich nicht eine Installation und ein System, sondern eine Person, die das System verwendet.

Am Rande bemerkt können wir aus den Ergebnissen schließen, dass es sich bei Herrn Weber um einen echten Profi und möglicherweise um einen alten Hasen im Geschäft handelt.

Für Fragen zur Versuchsanordnung oder zu den Ergebnissen stehe ich gerne Rede und Antwort.

Gruß, Rüdiger Wilke

_______________________________________

Dragon Professional 16 auf Windows 10 Pro und Windows 11
SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo)
HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD

#2 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Hallo Rüdiger,

"was die Performance betrifft, der Faktor aus dem Verhältnis zwischen der Zeit der Verarbeitung durch das Programm geteilt durch die Dauer der Äußerung war stets kleiner als 1"

bitte ein Beispiel, verstehe den Satz nicht

"von der theoretisch höheren Genauigkeit profitieren kann, ohne Leistungseinbußen in Kauf nehmen zu müssen"

ich habe das Gefühl, der Regler ist ein Dummy

Besten Dank
Anja

Dragon NaturallySpeaking 11.5; Windows 8 / 64

#3 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Hallo Anja,

das Programm misst die Zeit, die benötigt wird, um die Äußerung (physikalisch) zu diktieren - und macht das auf die Milliksekunde genau so wie die Erkennungsansicht in Dragon, da es auf die ActiveX Objekte in Dragon zugreift - und die Zeit, die Dragon benötigt, um die Äußerung zu bearbeiten. Daraus wird der Faktor (Performance Faktor) errechnet. Wenn der Faktor 1 ist, sind beide gleich lang, wenn er kleiner als 1 ist, war Dragon schneller, je kleiner der Faktor, desto höher die Performance.

Ob der Regler ein Dummy ist - was ich auch oft annehme -, kannst Du am besten damit testen.

Rüdiger

#4 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Hier nur meine Anekdote dazu: Bei mir mit einer Konfiguration zwar ohne i-Prozessor, aber immerhin mit vier Kernen (s. unten), erscheint der Wert bei längeren (gesprochenen) Sätzen so etwa um 1 herum fast wie festgenagelt (mal 0,98, mal 0,99, mal 1,01), auch nach meiner derzeitigen Wahrnehmung nur wenig sensitiv im Hinblick auf die Einstellung des Schiebereglers.
Auf meinem deutlich schlechteren Notebook finde ich, dass sich der Schieberegler stärker auswirkt. Wenn ich der dort vom Drachen vorgenommenen Voreinstellung entsprechend den Wert auf 0 (links) belasse, geht es deutlich fixer, die gefühlte Fehlerrate ist ein bisschen höher, aber immer noch sehr in Ordnung. Der Performancefaktor schwankt auf dem Notebook übrigens auch stärker, so zwischen 1,58 und 2,0. Der bekannte Effekt, dass der Drache nach einigen Sätzen immer schneller wird, ist hier besser zu beobachten als auf meinem leistungsstarken Desktop-PC.
Der Schieberegler scheint mir daher jedenfalls nicht überall ein Dummy zu sein, vielleicht gilt: je stärker das System, desto weniger kommt es auf seine Stellung an.

Gruß, Marius Raabe

Dragon NaturallySpeaking 11.5 Legal
Windows 7 Prof. 64-Bit, Office 2010, Jarte Plus
Philips SpeechMike II Pro Plus, SpeechMike III, SpeechMike Air, PDCC 2.8
Intel Core2 Quad Q9550, 2,83 GHz, 2x6MB L-2, 8 GB RAM

#5 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Richtig verlässliche Vergleichsergebnisse erhält man eh nur, wenn man eine als WAV oder WMA aufgezeichnete Äußerung umsetzt (die Aufnahme ist ein Klacks im Windows-Soundrecorder) und die Aufnahme in verschiedenen Reglerstellungen nacheinander laufen lässt (ist ein Klacks mit dem Tool). Ich habe es mal gemacht und bin zum Ergebnis gekommen, dass bei ganz genauer Betrachtung der Regler die zu erwartende Wirkung zeigt.

Im Alltag ist das aber weniger relevant, da man im freien Diktat die Gegenprobe nicht fahren kann. Man kann nämlich niemals zweimal das selbe diktieren. Panta rei.

Rüdiger

#6 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Rüdiger, ich war davon ausgegangen, das sei unstreitig, aber eben mangels Relevanz für das normale freie Diktat (also ohne Diktiergerät) nicht in der Diskussion.
Ich habe aufgrund des Hinweises nochmal die Gegenprobe gemacht, und zwar auf meinem relativ starken System, siehe unten. Bei einer .wav-Datei mit meinem liebsten performativen Widerspruch („Der Angeklagte wird, was eine falsche Interpretation des geltenden Rechts ist, zu lebenslanger Freiheitsstrafe verurteilt.“ – 18 Wörter) ergibt ein Testlauf Folgendes:

0 % 0,22
25 % 0,24
50 % 0,28
75 % 0,40
100 % 0,46

Also auch hier: kein Dummy. Frappierend auch wieder mal, wie schnell die Umsetzung von Sounddateien funktioniert. Bei mir scheint beim freien Diktat offenbar bummelig die halbe Zeit für die Generierung der Sounddatei draufzugehen, die dann vom Drachen gelesen wird.
Ich werde es nochmal gelegentlich auf meinem Notebook testen und dann das Ergebnis wissen lassen.

Das alles ist aber kein Plädoyer für das Diktiergerät, denn im Workflow bin ich jedenfalls am Schreibtisch viel produktiver, wenn ich auf dem Bildschirm sehe, was ich soeben getextet habe – für mich das eigentliche schlagende Argument für den Einsatz der Spracherkennung, aber das gehört schon wieder in ein anderes Forum.

Gruß, Marius Raabe

#7 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

To whom it may concern, hier wie versprochen auch noch die Ergebnisse des Tests mit der gleichen Sounddatei auf meinem wesentlich schwächeren Notebook
Lenovo X 300 mit Intel Core2Duo L7100 (Merom) 1,2 GHz 4 MB L-2-Cache, 3 GB RAM adressierbar, SSD, WinXP SP3, DNS11 Legal

0 % 0,65
25 % 0,74
50 % 0,86
75 % 1,21
100 % 1,40

Man sieht, dass zwischen den beiden Maschinen Welten liegen - und zwar sozusagen drei, weil der Wert relativ genau um den Faktor 3 schlechter ist, linear über alle Regler-Einstellungen hinweg. Man sieht auch, dass im Vergleich zwischen den Regler-Einstellungen ganz links und ganz rechts der Performancefaktor jeweils um etwas mehr als das Doppelte ansteigt.

Interessant erscheint mir auch, dass auf dieser Maschine der Unterschied zwischen der Sounddatei und dem freien Diktat jedenfalls nach mehrmaliger Wiederholung derselben Äußerung zusammenschrumpft. Bei der 100 %-Einstellung komme ich im freien Diktat nach ein paar Wiederholungen fast auf den gleichen Wert wie bei der Wiedergabe der Sounddatei. Die Spreizung ist aber sehr groß. In der Praxis ist mir dies aber zu langsam, insbesondere, weil man da eben nicht denselben Satz mehrfach hintereinander spricht, dann lasse ich die Einstellung auf 0 % (aber wie gesagt nur auf der schwachen Maschine, da man sich meines Erachtens so einiger Vorteile bei der Erkennungsgenauigkeit beraubt).

#8 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Zitat

Man sieht, dass zwischen den beiden Maschinen Welten liegen - und zwar sozusagen drei, weil der Wert relativ genau um den Faktor 3 schlechter ist, linear über alle Regler-Einstellungen hinweg. Man sieht auch, dass im Vergleich zwischen den Regler-Einstellungen ganz links und ganz rechts der Performancefaktor jeweils um etwas mehr als das Doppelte ansteigt.

Lieber Marius, vielen Dank für die Durchführung der Tests, die insbesondere dadurch interessant sind, dass relativ unterschiedliche Systeme verwendet werden. Bei meinen bisherigen Versuchen in dieser Richtung konnte ich nicht annähernd aussagekräftige Ergebnisse erzielen, jedoch mit relativ ähnlichen Systemen.

Was daraus unter anderem auch in erster Linie ersichtlich wird ist, dass Spracherkennung doch eine relativ exakte Wissenschaft ist, nicht wahr, und man ist geneigt zu sagen, es ist faszinierend! – Was man allerdings auch nur schätzen lernen kann, sofern man ebenso exakte Messmethoden einsetzt.

Zitat

Interessant erscheint mir auch, dass auf dieser Maschine der Unterschied zwischen der Sounddatei und dem freien Diktat jedenfalls nach mehrmaliger Wiederholung derselben Äußerung zusammenschrumpft. Bei der 100 %-Einstellung komme ich im freien Diktat nach ein paar Wiederholungen fast auf den gleichen Wert wie bei der Wiedergabe der Sounddatei.

Da hätte ich noch eine Bitte anzuschließen. Den Effekt, dass die Performance bei mehrmaliger Wiederholung derselben Äußerung auch bei gleich bleibender Stellung des Reglers gesteigert wird, habe ich ebenso bei der Umsetzung von Sounddateien beobachtet. Ich bin mir nicht ganz sicher, meine aber zu dem Ergebnis gekommen zu sein, dass im Durchschnitt nach der zweiten Umsetzung keine weitere Steigerung mehr festzustellen ist.

Wärest du so freundlich, diesen Test auch nochmal durchzuführen, mit unterschiedlichen Stellungen des Reglers und auf den beiden Systemen, und dann die Umsetzung so oft wiederholen, bis der Performance-Faktor nicht weiter sinkt? Entscheidend wäre dabei für mich darauf zu achten, ob dieses Phänomen durchgängig zu verzeichnen ist und nach wie vielen Umsetzungen der Zenit erreicht ist.

Wenn sich das bestätigt, würde ich darin einen Beleg für SilentAdapt sehen. Aus der Alltagsbeobachtung wissen wir ja, dass solche Äußerungen, die wir immer wieder verwenden, am allerbesten und und am schnellsten umgesetzt werden, sogar wenn wir sie nicht ganz so genau diktieren.

Allerdings muss man aufpassen, wie ich grade feststelle, wenn man ein neues Gerät verwendet, nämlich das SpeechMike III.

Grüße, Rüdiger

#9 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Lieber Rüdiger,

danke für den Kommentar. Im Hinblick auf deine Bitte muss ich dich allerdings enttäuschen. Beim Umsetzen von Sounddateien tritt der Effekt bei mir kaum auf, bei den ersten drei Versuchen steigert sich die Performance bzw. verringert sich der Faktor typischerweise um 1/100, das oszilliert aber dann auch wieder um ein bis zwei Hundertstel und wird von mir daher ins Reich der Messungenauigkeit (oder besser: Rechen-Ungenauigkeit) verwiesen. Das könnte aber auch schlichtweg daran liegen, dass bei dem im Interesse der Reproduzierbarkeit häufig wiederholten Satz SilentAdapt bzw. OUFA schon seine Arbeit erledigt hat... Beim freien Diktat merke ich die Verbesserung wie gesagt auf der schlechten Maschine deutlich, auf der guten kaum/nicht. Allerdings, wie du selbst gesagt hast, gibt es hier keine 100 %-Reproduktion derselben Äußerung - wobei der Umstand, dass der Drache gleichwohl im Vokabular enthaltene Wortformen in aller Regel fehlerfrei erkennt und dabei auch noch anfänglich schneller wird, auch von mir für den Beweis gehalten wird, dass SilentAdapt / OUFA ziemlich gut funktioniert, wie auch immer, ähnlich wie der Heisenberg-Kompensator im Transporterraum.

Gruß, Marius

#10 RE: Performance in DNS 11 - ein Fallbeispiel

Zitat · Antworten

Zitat
Das könnte aber auch schlichtweg daran liegen, dass bei dem im Interesse der Reproduzierbarkeit häufig wiederholten Satz SilentAdapt bzw. OUFA schon seine Arbeit erledigt hat...

Ja Marius, selbstverständlich trifft das zu, weshalb auch die Testreihe "ein Satz bei 0-100 %" auch schon als nicht ganz fehlerfrei zu verdächtigen ist, es sein denn, man macht sich die Mühe, jeden einzelnen Test mit einem Profil des selben Zustands durchzuführen - aber das ist selbst mir zu aufwendig.

Aber noch mal meine Bitte, ob Du nicht noch mal einen neuen Satz aufnehmen würdest, und den dann bei sagen wir 25 % und 75 % jeweils so lange erst auf dem schnellen und dann auf dem langsamen Rechner (oder umgekehrt) umsetzen lässt, bis jeweils keine weitere Steigerung mehr zu verzeichnen ist (ungeachtet des verschleiernden Lerneffektes wie oben beschrieben)? - Um zu testen, ob auch dabei nach dem 2. Lauf (im Durchschnitt) der Lernprozess abgeschlossen ist.

Was ist denn eigentlich der Heisenberg-Kompensator im Transporterraum? - Und ich dachte, ich wüsste schon alles! ...

Grüße, Rüdiger

Ähnliche Themen	Antworten/Neu	Letzter Beitrag⁄Zugriffe
Performance der Speecht-to-Text-Funktion Erstellt im Forum Berichte und Tipps von koehlerl	1	07.05.2025 16:35 von Marius_ • Zugriffe: 254

Sprung

Anwenderforum für die Dragon-Spracherkennung

Bitte geben Sie einen Grund für die Verwarnung an