mir ist aufgefallen, dass die Erkennungsgenauigkeit bei der Umsetzung von Audiodateien gegenüber der Erkennung beim normalen Diktieren stark abfällt.
Um auszuschließen, dass dies nur ein subjektiver Eindruck ist bzw. auf Einflüsse aus der Umgebung zurückzuführen ist, habe ich folgenden Test ausgeführt: Zunächst habe ich einen Text mit Dragon diktiert. Anschließend habe ich diesen mit der Wiedergabefunktion aus Dragon wiedergegeben und mit einem Audiorekorder aufgezeichnet. Hierdurch wurde eine .wav-Datei erzeugt (PCM, 22 kHz, 16 Bit). Diese Datei habe ich dann mit der Funktion "Aufnahme umsetzen" unter "Extras" umgesetzt. Um unnötigen Fragen vorzubeugen: Ich habe bei der Umsetzung unter der Option "Stimme" "meine Stimme" gewählt. Bei den "Optionen" habe ich die gleichen Einstellungen wie beim normalen Diktieren verwendet.
Und siehe da: Die Erkennungsqualität bei der Umsetzung der Aufnahme war tatsächlich deutlich schlechter. Fast sieht es danach aus, als ob das ganze Training (durch Korrekturen etc.) bei der Umsetzung gar nicht hinterlegt ist.
Natürlich kann man für das Umsetzen von Audiodateien einen neuen Benutzer anlegen und diesen dann anhand der Korrekturen (man erhält ja auch die .dra-Dateien) neu trainieren, aber dies wäre mit einem großen Zeitaufwand verbunden.
Muss man wirklich für die Umsetzung von Aufnahmen ein weiteres Benutzerprofil trainieren oder gibt es einen anderen Weg, um die gleiche Erkennungsgenauigkeit wie beim Live-Diktieren zu erhalten?
Realistischer wäre der direkte Vergleich gewesen, wenn Sie parallel in beide Geräte diktiert hätten, also sowohl in das Mikrofon bzw. Headset als auch in das Aufnahmegerät (Digitalrecorder) und die Aufnahme anschließend umgesetzt hätten, um die beiden Ergebnisse miteinander zu vergleichen.
Es trifft allerdings zu, dass für die Umsetzung, auch mit der „eigenen Stimme“, ein separates akustisches Modell angelegt wird, welches folglich noch trainiert werden muss und insofern die Korrekturen, was die akustische Seite betrifft, die man zuvor bereits beim direkten Diktat gesammelt hat, dort noch nicht zur Verfügung stehen.
Wiederum verwenden alle Diktierquellen innerhalb ein und desselben Profils das selbe Vokabular und die damit verbundenen und gesammelten Informationen.
Meine praktische Erfahrung ist aber, wenn ich auch nur selten auf ein Diktiergerät zurückgreifen muss, dass die Unterschiede kaum spürbar sind, jedenfalls nicht solange die Aufnahmen klar und deutlich sind.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Ich habe gar kein Aufnahmegerät verwendet. Vielleicht habe ich mich etwas unklar ausgedrückt. Mit dem "Audiorecorder" ist ein Programm gemeint, dass den Audiostream des Computers aufzeichnet. Da ich das interne Audioformat von Dragon (22 kHz, 16 Bit) verwendet habe, sollte es keine Unterschiede in der Audioqualität gegenüber dem direkten Diktat geben.
Inzwischen habe ich allerdings selbst noch etwas rumgespielt und etwas Merkwürdiges herausgefunden: Wenn ich die Audiodatei, die vorher mit dem Audiorecorder erstellt wurde, mit der Funktion "Autoumsetzung" statt "Aufnahme umsetzen" unter "Extras" umsetze, ergibt sich genau die gleiche Erkennung wie beim normalen Diktat. Hier wird also offensichtlich mein bereits trainiertes Profil verwendet.
So sollte es ja auch sein. Unbequemerweise läuft die "Autoumsetzung" allerdings nur, wenn Dragon vorher heruntergefahren wurde. Man kann also nicht "mal eben schnell" etwas umsetzen, sondern muss erst einmal Dragon beenden, woraufhin die Autoumsetzung loslegt. In den Hilfeinformationen von Nuance habe ich eine Stelle gefunden, in der ausgesagt wird, dass dies geschieht, um eine Beschädigung der Benutzerdaten zu vermeiden. Es scheint also tatsächlich so zu sein, dass bei Verwendung von "Aufnahme umsetzen", wobei Dragon ja hochgefahren ist, bestimmte Bereiche der Benutzerdaten ungenutzt bleiben, um eine Datenkorruption zu vermeiden.
Jedenfalls würde dies die stark abfallende Erkennungsqualität bei "Aufnahme umsetzen" erklären.
Da wird sich manch ein Benutzer wohl schon gedacht haben, dass die schlechte Erkennung beim externen Diktat auf die mangelhafte Qualität seines Aufnahmegeräts bzw. die Audiokompression zurückzuführen ist.