Wie schon vor etwa zwei Wochen hier, an anderer Stelle, angekündigt, konnte ich nun mit freundlicher Unterstützung einiger Aktiven aus dem Forum die neue Version 13 einem qualifizierten Leistungstest unterziehen - mit erstaunlichem Ergebnis, um es vorweg zu nehmen.
Grundlage der Testanordnung waren Audioaufzeichnungen der Probanden, mittels derer ich Benutzerprofile anlegen und damit wiederum Probetexte umsetzen konnte, in replizierbarer Form. Dazu wurde zunächst der Trainingstext "Einführung in die Spracherkennung" aus der Dragon-Installation aufgezeichnet, ein Text mit 710 Wörtern in der Zählung von MS Word, sodann ein etwas längerer, sprachlich anspruchsvoller Probetext mit rund 2.750 Wörtern, dessen Lektüre je nach Lesegeschwindigkeit ca. 25-30 Minuten dauert.
Aufgrund des Umfangs der dabei gewonnenen Datenmenge alleine schon sind die Testresultate als valide anzusehen.
Mit den Audiodateien des Trainingstextes wurden Benutzerprofile als Rekorder-Profile angelegt, mit denen dann die Probedateien in Dragon umgesetzt werden.
Mit dieser Anordnung kann der Versuch jederzeit an einem beliebigen Ort und ohne jedes weitere Mitwirken der Akteure wiederholt werden. Es versteht sich von selbst, dass ich die weitere Bearbeitung zentral übernommen habe, die Probanden aber erhalten von mir die Mittel und Werkzeuge, um selbst eigene Testreihen mit ihrem Material und weitere, darauf basierende Überprüfungen nach Belieben auszuführen. Als kleines Dankeschön für ihre Mühen damit.
Die Aufzeichnung der Dateien erfolgte unter Verwendung von Digital-Rekordern im DS2- und MP3-Format, und da die Beteiligten sehr sorgfältig gearbeitet haben, ist die Qualität mehr als gut und damit für den Zweck bestens geeignet. Eine kleine Ausnahme davon stellen die Aufnahmen dar, die von einem Teilnehmer unter Verwendung einer Audio-Software angefertigt wurden, wobei die Klangqualität deutlich abfällt, leider, aber die Resultate dennoch sehr gut verwendet werden können - als Gegenbeispiel.
Im einzelnen wurde bei der Auswertung so verfahren, dass in die Benutzerprofile nach deren Anlage zunächst eine Liste mit 43 Wörtern importiert wurde, die im Probetext vorkommen, aber noch nicht im Standard-Vokabular enthalten sind, wie etwa "Grapheme, Elisionen, Gaumenverschlusslaute", um nur einige zu nennen. Danach wurden die Audio-Dateien umgesetzt, z.B. in DragonPad (hier aber nicht), und die Umsetzungen anschließend mit der Textvorlage verglichen.
Dabei wurde aber noch ein Zwischenschritt eingelegt, denn es wird sehr schnell klar, dass die Umsetzung an einigen Stellen jeweils abweicht (abweichen muss), wenn der Sprecher anders diktiert als im Text vorgegeben. Wenn also Wörter weggelassen, hinzugefügt oder vertauscht werden, oder einfach komplett anders ausgesprochen werden, muss die Vorlage demzufolge entsprechend angepasst oder - wie ich es genannt habe - "bereinigt" werden.
Erst aus dem Textvergleich zwischen der Umsetzung und der bereinigten Vorlage ergibt sich schließlich der effektive Fehlerquotient - oder Genauigkeitsquotient, je nach Sichtweise.
Nun, bevor jemand auf die Idee verfällt, ich hätte tagelang hier gesessen und Tausende von Wörtern im Text auf Abweichungen hin untereinander verglichen und mich dabei sehr wahrscheinlich dutzende Male verzählt, - zu dem Zweck habe ich eine eigene Software, die das mittels Klick erledigt, aber das nur am Rande.
Nun endlich zu den Ergebnissen. In der aktuellen Testreihe geht es zunächst einmal um den direkten Vergleich zwischen Version 13 und 12.5, was die Erkennungsgenauigkeit "aus dem Stand heraus" angeht.
Die Resultate (Anzahl der Fehler und Erkennungsrate), für jeden der insgesamt vier Sprecher in einer Zeile, stehen unten in der Tabelle. Es fällt sofort auf, dass die drei qualitativ unbedenklichen Aufnahmen mit rund 40 Fehlern in Version 13 abschneiden, in Version 12.5 dagegen die Anzahl jeweils rund doppelt so hoch ist, was im übrigen auch für den "Ausreißer" gilt.
Nun, soll man also daraus schließen, dass die Erkennungsgenauigkeit in Version 13 doppelt so hoch ist wie in der Vorgängerversion? - Könnte man, wenn man so will!
Aber wie auch immer, 40 Fehler mehr oder weniger für rund 30 Minuten Diktat bearbeiten zu müssen macht einen gewaltigen Unterschied, egal wie man es rechnen will.
Was den Unterschied hinsichtlich Art der Fehler in 12.5 gegenüber 13 betrifft, zeichnet sich übrigens ganz klar ab, dass die Verbesserung in 13 eindeutig bei der korrekten Erkennung der Wortendungen und bei spontan gebildeten Komposita liegt, was einige hier sehr interessieren dürften.
Alles im allem: wer's noch nicht hat, sollte es sich schnell holen - 13 heißt die Losung.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Angefügte Bilder:
Aufgrund eingeschränkter Benutzerrechte werden nur die Namen der Dateianhänge angezeigt Jetzt anmelden! f5t1943p13265n327.jpg
Habe ich mit größtem Interesse gelesen. Danke für die aufschlussreiche Arbeit! Immerhin ist damit die Aussage von Dragon, dass sich die Erkennungsgenauigkeit erneut erheblich verbessert hat, nunmehr auch objektiv verifiziert. Für mich persönlich bleibt allerdings die Frage, und die muss sich selbstverständlich jeder selber beantworten, ob damit allein ein Update auf 13 ausreichend begründet ist. Wer, wie ich, mit seinen diktierten Text in der „Urfassung" ohnehin nie zufrieden ist und immer nachträglich korrigiert (nicht nur Fehler, sondern auch stilistisch und die Wortwahl), wird von der verbesserten Erkennungsgenauigkeit nicht spürbar profitieren.
DNS 15.3 Professional Individual auf Windows 10 Home (64-bit) Plantronics PLT Savi W440 Intel (R) Core (TM) i7-7500 2,7 GHz 8 GB RAM 64 Bit
solche Vergleiche belegen für mich, dass es sich in jedem Fall lohnen wird, von der aus meiner Sicht guten und unkomplizierten Version 12.5 auf 13 umzusteigen.
Mit freundlichem Gruß aus Hamburg Malte Rossbach Dragon legal individual 15.0 Windows 10 Prof. 64 bit, MS Office 2013, Intel Core i7 3770K, 16 GB RAM, Asus Xonar Soundkarte, Sennheiser MD 431 II; sowie Notebook, Core i5-6267U, 6 GB RAM, Windows 10 Home 64 bit, MS Office 2015, Sennheiser USB Headset PC 26. http://www.rechtsanwalt-rossbach.de
Zitat von R.Wilkewie auch immer, 40 Fehler mehr oder weniger für rund 30 Minuten Diktat bearbeiten zu müssen macht einen gewaltigen Unterschied, egal wie man es rechnen will.
Hallo Rüdiger,
freut mich, dass Du meinen subjektiven Eindruck, den ich hier http://dragon-spracherkennung.forumprofi...108.html#p13108geschildert habe, mit Deinem Test belegen konntest. Danke für Deine Mühe! Noch eine Beobachtung am Rande: Die weiter verbesserte Erkennungsgenauigkeit verführt dazu, etwas schludriger zu diktieren, was aber dann doch wieder bestraft wird. Beispiel: Umsetzung von "groß sie" als "I" wenn ich beim Diktieren zwischen "groß" und "sie" nicht wenigstens eine klitzkleine Pause mache. Tragischeres Beispiel: "und treu" (gesprochen "undtreu") wird beim Diktieren ohne Pause zu "untreu".
Noch einen schönen Abend
Hans
DPI 15 auf Windows 10 Professional (64-bit) SpeechMike Premium. Intel i7 Core 4x2.67 GHz, 6 GB RAM
vielen Dank für Deinen Einsatz. Ich kann mich Deiner Bewertung und auch dem, was Dioskur hier beschrieben hat, nur vollumfänglich anschließen. Für mich hat sich die Version 13 in jedem Falle gelohnt, ich habe ganz erheblich weniger Korrekturaufwand. Das macht die Arbeit einfach flüssiger…
Etwas erstaunt habe mich doch die großen Unterschiede hinsichtlich der Audioqualität. Nachdem einige Anwender hier berichteten, dass sie in der Version 13 auch gut das Mikrofon des Laptops einsetzen konnten, bin ich überrascht.
Herzliche Grüße Angelika
Laptop: Intel Core 2 Duo P8700 (2,53 GHz, 3 MB L2 Cache), 4 GB RAM, Windows 7 32-Bit, DPI 15, MS Office 2007, Olympus DR-1000, Samson GoMic PC: Intel i5, Windows 7 64-bit, Dragon NaturallySpeaking 13 Prof, MS Office 2013
Das liest sich ja gut! Bin schon gespannt auf "legal 13"! Obwohl mich auch schon die Version 12.5 positiv überrascht hat nach anfänglichen Versuchen vor einigen Jahren, die ich schnell abbrach.
Sehr interessanter Test - demnach hätte Nuance bei der Ankündigung ja sogar tiefgestapelt!
Zitat von R.WilkeWas den Unterschied hinsichtlich Art der Fehler in 12.5 gegenüber 13 betrifft, zeichnet sich übrigens ganz klar ab, dass die Verbesserung in 13 eindeutig bei der korrekten Erkennung der Wortendungen und bei spontan gebildeten Komposita liegt, was einige hier sehr interessieren dürften.
Außerdem funktioniert nach meinem Eindruck die Groß- und Kleinschreibung besser - substantivierte Verben und Adjektive werden viel häufiger spontan großgeschrieben.
Und Korrekturen werden bei gleicher Hardware schneller umgesetzt, was ebenfalls einen Zeitgewinn bringt.
DNS Professional Individual 15.61, Windows 11 Insider Preview Version 21H2, Mac Mini M1 mit 16 GB RAM, Parallels Desktop Pro 17.0.0; iPad Pro 2020 mit Parallels Access 6.5.2
Zitat von karinAußerdem funktioniert nach meinem Eindruck die Groß- und Kleinschreibung besser - substantivierte Verben und Adjektive werden viel häufiger spontan großgeschrieben.
Auch das kann ich nur bestätigen.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Zitat von AloisVon einer 99,9 % Fehlerrate sind wir scheinbar noch Jahre entfernt
Ganz im Gegenteil, aber sicherlich meinten Sie „99,9 % Erkennungsgenauigkeit“. – Eine Erkennungsgenauigkeit von 100 % ist sogar direkt vom Start weg möglich, letztendlich hängt es vor allem auch vom verwendeten Text ab. Der bei diesem Test verwendete Text war schon recht anspruchsvoll, zur Verdeutlichung hänge ich ihn hier einmal an, damit sich jeder selbst ein Bild davon machen kann, und nicht zuletzt kann man dabei auch noch etwas lernen, was unser Thema betrifft.
Erwähnt werden muss auch, dass mindestens die Hälfte der Fehler auf Fachbegriffe zurückzuführen sind, die trotz Hinzufügung zum Vokabular praktisch nicht erkannt werden, sofern man die Wörter nicht zugleich auch trainieren kann. Hierbei handelt es sich insbesondere um solche Begriffe wie „Phonemen“ und diverse Varianten davon, oder auch „Phon, Allophone, Graphem“ usw. Interessanterweise waren die Fehlleistungen in der Hinsicht bei allen Probanden in etwa gleich. Unter dem Strich aber müsste man aus diesem Blickwinkel die effektive Fehlerzahl noch einmal halbieren, um ein realistisches Bild zu gewinnen.
Allerdings, und das wird möglicherweise schnell übersehen, ging es gar nicht um die absolute Zahl der Fehler, sondern lediglich um die Relationen untereinander, und zwar nicht bezogen auf die einzelnen Akteure im Vergleich, sondern lediglich im Hinblick darauf, wie identisches Eingangsmaterial von den Versionen 12.5 und 13 unterschiedlich verarbeitet wird.
Insofern ist die Erkennungsleistung der Version 13 als schlichtweg überragend zu bewerten, zumal ich schon bei Erscheinen der Version 12 vor zwei Jahren einen ähnlichen Vergleich mit der damaligen Vorversion 11 durchgeführt habe, wenngleich auf schmalerer Datenbasis, wobei sich auch damals ganz klar eine Verbesserung bei der neuen Version herausgestellt hatte.
Ich denke schon, dass aufgrund des hier demonstrierten systematischen Zusammenhangs der Ergebnisse die verbesserte Erkennungsleistung nicht zu bezweifeln ist.
Weitere ähnliche Tests sind schon geplant, wobei es dann darum gehen wird, die Erkennungsleistung von „frischen“ gegenüber „trainierten“ Profilen untereinander zu vergleichen.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Dateianlage:
Aufgrund eingeschränkter Benutzerrechte werden nur die Namen der Dateianhänge angezeigt Jetzt anmelden!
f5t1943p13390n330.pdf