DPI15: Geringere Erkennungsgenauigkeit bei der Audioumsetzung

Sie können sich hier anmelden

Dieses Thema hat 2 Antworten
und wurde 447 mal aufgerufen

Fragen zur Anwendung

RE: DPI15: Geringere Erkennungsgenauigkeit bei der Audioumsetzung

Zitat · Antworten

Liebe Dragon-Benutzer,

mir ist aufgefallen, dass die Erkennungsgenauigkeit bei der Umsetzung von Audiodateien gegenüber der Erkennung beim normalen Diktieren stark abfällt.

Um auszuschließen, dass dies nur ein subjektiver Eindruck ist bzw. auf Einflüsse aus der Umgebung zurückzuführen ist, habe ich folgenden Test ausgeführt: Zunächst habe ich einen Text mit Dragon diktiert. Anschließend habe ich diesen mit der Wiedergabefunktion aus Dragon wiedergegeben und mit einem Audiorekorder aufgezeichnet. Hierdurch wurde eine .wav-Datei erzeugt (PCM, 22 kHz, 16 Bit). Diese Datei habe ich dann mit der Funktion "Aufnahme umsetzen" unter "Extras" umgesetzt. Um unnötigen Fragen vorzubeugen: Ich habe bei der Umsetzung unter der Option "Stimme" "meine Stimme" gewählt. Bei den "Optionen" habe ich die gleichen Einstellungen wie beim normalen Diktieren verwendet.

Und siehe da: Die Erkennungsqualität bei der Umsetzung der Aufnahme war tatsächlich deutlich schlechter. Fast sieht es danach aus, als ob das ganze Training (durch Korrekturen etc.) bei der Umsetzung gar nicht hinterlegt ist.

Natürlich kann man für das Umsetzen von Audiodateien einen neuen Benutzer anlegen und diesen dann anhand der Korrekturen (man erhält ja auch die .dra-Dateien) neu trainieren, aber dies wäre mit einem großen Zeitaufwand verbunden.

Muss man wirklich für die Umsetzung von Aufnahmen ein weiteres Benutzerprofil trainieren oder gibt es einen anderen Weg, um die gleiche Erkennungsgenauigkeit wie beim Live-Diktieren zu erhalten?

Ich bedanke mich bereits für alle Antworten!

#2 RE: DPI15: Geringere Erkennungsgenauigkeit bei der Audioumsetzung

Zitat · Antworten

Realistischer wäre der direkte Vergleich gewesen, wenn Sie parallel in beide Geräte diktiert hätten, also sowohl in das Mikrofon bzw. Headset als auch in das Aufnahmegerät (Digitalrecorder) und die Aufnahme anschließend umgesetzt hätten, um die beiden Ergebnisse miteinander zu vergleichen.

Es trifft allerdings zu, dass für die Umsetzung, auch mit der „eigenen Stimme“, ein separates akustisches Modell angelegt wird, welches folglich noch trainiert werden muss und insofern die Korrekturen, was die akustische Seite betrifft, die man zuvor bereits beim direkten Diktat gesammelt hat, dort noch nicht zur Verfügung stehen.

Wiederum verwenden alle Diktierquellen innerhalb ein und desselben Profils das selbe Vokabular und die damit verbundenen und gesammelten Informationen.

Meine praktische Erfahrung ist aber, wenn ich auch nur selten auf ein Diktiergerät zurückgreifen muss, dass die Unterschiede kaum spürbar sind, jedenfalls nicht solange die Aufnahmen klar und deutlich sind.

_______________________________________

Dragon Professional 16 auf Windows 10 Pro und Windows 11
SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo)
HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD

#3 RE: DPI15: Geringere Erkennungsgenauigkeit bei der Audioumsetzung

Zitat · Antworten

Danke Herr Wilke für die Rückmeldung.

Ich habe gar kein Aufnahmegerät verwendet. Vielleicht habe ich mich etwas unklar ausgedrückt. Mit dem "Audiorecorder" ist ein Programm gemeint, dass den Audiostream des Computers aufzeichnet. Da ich das interne Audioformat von Dragon (22 kHz, 16 Bit) verwendet habe, sollte es keine Unterschiede in der Audioqualität gegenüber dem direkten Diktat geben.

Inzwischen habe ich allerdings selbst noch etwas rumgespielt und etwas Merkwürdiges herausgefunden: Wenn ich die Audiodatei, die vorher mit dem Audiorecorder erstellt wurde, mit der Funktion "Autoumsetzung" statt "Aufnahme umsetzen" unter "Extras" umsetze, ergibt sich genau die gleiche Erkennung wie beim normalen Diktat. Hier wird also offensichtlich mein bereits trainiertes Profil verwendet.

So sollte es ja auch sein. Unbequemerweise läuft die "Autoumsetzung" allerdings nur, wenn Dragon vorher heruntergefahren wurde. Man kann also nicht "mal eben schnell" etwas umsetzen, sondern muss erst einmal Dragon beenden, woraufhin die Autoumsetzung loslegt. In den Hilfeinformationen von Nuance habe ich eine Stelle gefunden, in der ausgesagt wird, dass dies geschieht, um eine Beschädigung der Benutzerdaten zu vermeiden. Es scheint also tatsächlich so zu sein, dass bei Verwendung von "Aufnahme umsetzen", wobei Dragon ja hochgefahren ist, bestimmte Bereiche der Benutzerdaten ungenutzt bleiben, um eine Datenkorruption zu vermeiden.

Jedenfalls würde dies die stark abfallende Erkennungsqualität bei "Aufnahme umsetzen" erklären.

Da wird sich manch ein Benutzer wohl schon gedacht haben, dass die schlechte Erkennung beim externen Diktat auf die mangelhafte Qualität seines Aufnahmegeräts bzw. die Audiokompression zurückzuführen ist.

«« DPI 15 fällt immer wieder aus

Remote Desktop unter Windows 10 und DNS »»

Ähnliche Themen	Antworten/Neu	Letzter Beitrag⁄Zugriffe
Verschlechterung der Erkennung Erstellt im Forum Fragen zur Anwendung von Christian45	0	18.06.2025 12:01 von Christian45 • Zugriffe: 204
Erfahrungen mit Dragon-Bluetooth-Headset II ? Erstellt im Forum Geräte und Hardware von pesa	0	19.09.2024 19:26 von pesa • Zugriffe: 360
Lautstärke Audio – Eingang extern erhöhen Erstellt im Forum Geräte und Hardware von Nutzer	2	12.10.2024 11:15 von Nutzer • Zugriffe: 394
DNS 16 – grenzenlos enttäuscht Erstellt im Forum Fragen zur Anwendung von mike4565	16	28.10.2023 07:42 von rc.otto • Zugriffe: 1855
Umstieg von DNS12 auf DPI15 Erstellt im Forum Berichte und Tipps von Maik Horam-eK	6	13.02.2023 15:14 von Harald • Zugriffe: 422
DPM8200 vs Speechmike Air Erstellt im Forum Geräte und Hardware von Nutzer	1	21.08.2021 15:34 von Marius_ • Zugriffe: 712
RØDE NT USB-MIni als Mikrofon Erstellt im Forum Geräte und Hardware von a.wagner	6	23.08.2022 14:43 von a.wagner • Zugriffe: 1144

Sprung

Anwenderforum für die Dragon-Spracherkennung

Bitte geben Sie einen Grund für die Verwarnung an