Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Und nun auch mit Text dazu. Nachdem Sonja vor einiger Zeit angekündigt hatte, aufgrund ihrer bisherigen schlechten Erfahrungen mit der Version 12 zur Version 10.1 zurückzugehen, mit der Begründung, zwischen diesen beiden Versionen keine nennenswerten Unterschiede festzustellen, was die Erkennungsgenauigkeit betrifft, demgegenüber aber Version 10.1 als wesentlich stabiler empfindet als die Nachfolger, habe ich mir die folgende Versuchsanordnung ausgedacht.
Wie wäre es, wenn man ein und denselben Probetext von einer repräsentativen Länge, als Audiodatei aufgenommen, mit gleichermaßen auf allen drei Versionen frisch angelegten Benutzerprofilen umsetzen lässt, um dabei zwei Aspekte zu untersuchen, nämlich (1) die Anzahl der Fehler in der Umsetzung und (2) die Zeit, die für die Umsetzung benötigt wird. Zwar nicht unbedingt notwendig, aber sinnvoll wäre es auch, wenn dazu identische Systeme verwendet würden, um alle Fehlerquellen auszuschließen, die die Ergebnisse verfälschen könnten.
Da ich für meine diversen Forschungen und Programmentwicklungen ohnehin virtuelle Maschinen einsetze, hat es sich also angeboten, mit entsprechenden Kopien zu arbeiten, die sich jeweils nur durch die installierte Dragon-Version unterscheiden. Die virtuellen Maschinen waren so eingerichtet, dass ich ihnen zwei Prozessorkerne und 2 GB Arbeitsspeicher zugewiesen habe, mit Windows XP als Betriebssystem. (Dabei hat sich auch zugleich der Mythos verflüchtigt, DNS 12 und insbesondere BestMatch V benötigt unbedingt mindestens 8 GB Speicher.)
Der besseren Übersicht halber habe ich also die folgenden drei Systeme eingesetzt:
Jeweils in der Professional Edition auf Windows XP mit zwei Prozessorkernen und 2 GB Arbeitsspeicher.
Auf den einzelnen Systemen habe ich dann die folgenden Benutzerprofile angelegt:
10.1: BestMatch III 11.5: BestMatch III und IV 12.0: BestMatch III, IV und V
Die Benutzerprofile habe ich nicht trainiert, sondern nur das Audio Setup gelesen, jeweils mit dem gleichen USB-Mikrofon (SpeechMike). Bevor ich die Profile aber für die Umsetzung eingesetzt habe, habe ich sie einmal „warm laufen“ lassen, und zwar in Form der Umsetzung auch ein und derselben Audiodatei, wobei es sich um eine Aufnahme des allgemeinen Trainingstextes „Einführung in die Spracherkennung“ handelt, die rund 5 Minuten lang ist.
Als Probetext schließlich habe ich zunächst einen Zeitungsartikel gelesen, bei dem ich darauf geachtet habe, dass sämtliche Wörter schon von Anfang an im Ausgangsvokabular enthalten sind (zu diesem Zweck musste ich natürlich einige Wörter im Originalartikel ersetzen), und anschließend noch ein frei erfundenes Briefdiktat, mehr so aus meiner alltäglichen Praxis, wobei es mir insbesondere um die Überprüfung der Anrede-Pronomina und deren Bewältigung in den jeweiligen unterschiedlichen Profilen ging.
Der Text umfasst somit rund 1100 Wörter und ist ca. 8 Minuten 40 Sekunden lang.
Sämtliche Auswertungen habe ich per Screenshots gespeichert, die Umsetzungen in Textform habe ich ebenfalls abgespeichert, so dass ich meine Resultate jederzeit nachweisen könnte, wenn Bedarf bestünde. Die Zusammenfassungen daraus ergeben sich aus dem Screenshot im ersten Beitrag ganz oben, ein Beispiel für einen Screenshot am Ende eines Testlaufs steht darunter.
Meines Erachtens sprechen die Ergebnisse zunächst einmal für sich selbst, und zwar in einer sehr klaren Sprache.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
zwischen Deinem Versuchsergebnis und meiner Erfahrung besteht nicht unbedingt eine Diskrepanz.
Von Dir verwendet wurden frisch angelegte und nicht trainierte Benutzerprofile und ich schrieb: „Der Fortschritt seit Version 10 beschränkt sich m.E. darauf, dass die Erkennungsleistung aus der Box, d.h. ohne oder nur mit geringfügigem Training, frappierend gut ist, wogegen bis Version 10 für eine gute Erkennungsleistung ein austrainiertes und sorgfältig gepflegtes Benutzerprofil erforderlich war.“
Ich stimme mithin jederzeit zu, dass Version 10.1 dann nicht mithalten kann, wenn es um den Einsatz „out of the box“ geht.
Zitat von Sonjazwischen Deinem Versuchsergebnis und meiner Erfahrung besteht nicht unbedingt eine Diskrepanz.
War auch überhaupt nicht beabsichtigt oder so gemeint. Wenn man "gut trainiert" irgendwie replizieren könnte, würde ich sofort einen Vergleichstest durchführen.
Gruß, Rüdiger
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Wer diktiert schon mit einem Profil out of the box? Selbst wenn es nach wissenschaftlichen Ansprüchen gemessen nicht replizierbar ist, wäre ein Vergleichstest mit jeweils"austrainierten" Profilen daher sicherlich aussagekräftiger als einer mit jungfräulichen.
Und nach einigen Wochen intensiven Diktierens dürfte man das 12-er Profil genauso hingebogen haben wie vorher das 11er. Ich denke, dass eine vergleichende Aussage mit trainierten Profilen trotz der angesprochenen, nicht gegebenen Replizierbarkeit eine vernünftige vergleichende Bewertung zulässt.