ich bitte um Hilfe bei der Entscheidung, ob ein Prozessorupgrade für die Nutzung von Dragon Professional Individuell 15.3 sinnvoll ist.
Zum Einsatz kommt zur Zeit ein
HP ProDesk 400 G3 Mini Desktop mit Windows 10 Pro, 16 GB RAM, 256 SSD und einem Intel i5 7500T.
Dieser Prozessor könnte durch einen i7 7700T ersetzt werden. Die wohl wesentlichen Unterschiede der beiden Prozessoren liegen in der - Taktgeschwindigkeit: 2,7 GHz vs. 2,9 GHz - den Threads: 4 vs. 8 und - dem CPU-Cache: 6 MB vs. 8 MB.
Ist aus Ihrer Sicht eine relevante Verringerung der Zeit, innerhalb derer Dragon das Diktat auf den Bildschirm bringt, bei der Verwendung des i7 zu erwarten?
Die geringfügig höhere Taktgeschwindigkeit ist komplett irrelevant. Die Verdoppelung der Threads und der größere Cache machen sich unter Umständen bemerkbar, wenn auch nur geringfügig. Am Ende würde ich die Entscheidung davon abhängig machen, mit welchem finanziellen Aufwand das Upgrade verbunden ist, und wie leicht ich die Ausgabe verkraften kann.
In die Geschwindigkeit der Umsetzung fließen noch andere Faktoren ein, hauptsächlich Qualität und Eindeutigkeit des Inputs.
Von der Regel, dass man hier nicht auf Produkte hinweisen darf, mache ich jetzt mal eine Ausnahme, in eigener Sache, indem ich auf ein von mir entwickeltes, zu Testzwecken frei verfügbares Tool zur exakten Bestimmung der Performanz hinweise:
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Die kurze Antwort wäre: Nein, das glaube ich nicht.
Zunächst einmal käme es darauf an, was Sie als „relevant“ betrachten. Ich unterstelle, dass es Ihnen um einen erheblichen Unterschied bei der subjektiv „gefühlten“/erlebten Umsetzungsgeschwindigkeit geht.
Um einen objektiven Test durchführen zu können, müsste man eine identische Aufnahme auf zwei sonst gleichen Rechnern mit den beiden Prozessoren umsetzen lassen und die Umsetzungsgeschwindigkeit messen. Ich bezweifle, dass jemand hier die nötige Hardware-Ausstattung dafür mitbringt.
Näherungsweise habe ich einmal Folgendes versucht (das hat so lange gedauert, dass Rüdiger mich mit seiner Äußerung überholt hat):
Ich habe hier einen Laptop mit einem i5-7267U 3,1 GHz. Bei Passmark hat der einen zusammengefassten Score von 5198. Ihr 5700T kommt auf 7168, ist also schneller. Dann habe ich meinen Büro-Rechner mit einem i7-7700 3,6 GHz (siehe unten), der einen Score von 10796 aufweist, also schneller ist als Ihr Upgrade-Kandidat 7700T, der auf 9208 kommt.
Ich habe die beiden Geräte mit Rüdigers Benchmarking-Tool gegeneinander antreten lassen, sowohl mit einer Transkription derselben Aufnahme als auch im Alltagsbetrieb (direktes Diktat).
Bei der Transkription gibt es nur einen kleinen Unterschied im Echtzeitfaktor: Der schnelle Rechner kommt auf 0,32 Der Laptop kommt auf 0,37. Dabei ist darauf hinzuweisen, dass bei mehreren Durchläufen durchaus unterschiedliche Ergebnisse herauskommen können, wohl gemerkt bei einer identischen Aufnahme. Die Umsetzung ist nun mal statistisch gesteuert. Das gilt auch, obwohl meine Aufnahme gut ist und jedes Wort hohe Konfidenz-Werte erzielt.
Beim Echtzeit-Diktat, welches weniger gut vergleichbar ist, weil Unterschiede im Input unvermeidlich sind, liegen die Werte noch näher beieinander. Bei einer kurzen Äußerung von einem Satz schafft der schnelle Rechner Werte von 0,88-0,91 der Laptop Werte von 0,9 bis 0,92. Beim Echtzeit-Diktat ist die Varianz der Ergebnisse noch größer, was ja auch zu erwarten ist.
Bei längeren Äußerungen von mehreren Sätzen kann es durchaus mal vorkommen, dass der Laptop vorne liegt.
Wie man sieht, weichen die Werte im Verhältnis zwischen Transkription und Echtzeit-Diktat stark ab. D. h. aber nicht, dass die Umsetzung auch gefühlt schneller ist. Rüdiger wird den technischen Hintergrund am besten erklären können.
Im Ergebnis meine ich, dass sich ein Upgrade jedenfalls nicht allein wegen Dragon lohnen würde. Für Dragon ist Ihr Rechner schon gut gerüstet. Wenn Sie das Gefühl haben, dass die Umsetzung zu langsam vonstatten geht, dürften die Probleme an anderer Stelle liegen (typischerweise bei der Input-Qualität).
Puh.
Edit: Ich habe mit einer alten Version von Rüdigers Tool aus 2012 gearbeitet, die neueste kann ich mir nicht leisten
Zitat von MeinhardIch habe mit einer alten Version von Rüdigers Tool aus 2012 gearbeitet, die neueste kann ich mir nicht leisten smile
Mir ist klar, dass die neuerdings per Distribution erhobene Lizensierungsgebühr mächtig ins Kontor schlägt, aber in dem Fall hast Du noch mal Schwein gehabt, weil sich bei dem Tool seit 2012 inhaltlich nichts mehr getan hat.
ZitatDabei ist darauf hinzuweisen, dass bei mehreren Durchläufen durchaus unterschiedliche Ergebnisse herauskommen können, wohl gemerkt bei einer identischen Aufnahme. Die Umsetzung ist nun mal statistisch gesteuert. Das gilt auch, obwohl meine Aufnahme gut ist und jedes Wort hohe Konfidenz-Werte erzielt.
Richtig, und es kann auch passieren, dass bei gleichbleibendem Input gelegentlich andere Umsetzungsergebnisse herauskommen, wenn die jeweiligen Entscheidungen grenzwertig sind. Wie im richtigen Leben. Das liegt sicherlich zum einen daran, dass, wie Du anmerkst, der Erkennungsprozess nicht mechanisch-determiniert ist, sondern jedes Mal aufs Neue gewissermaßen dynamisch-kreatürlich, oder, in Abwandlung von Humboldt, "Sprache(rkennung) kein Werk (Ergon), sondern Tätigkeit (Energeia)" ist.
Zum anderen dürften die, statisch vernachlässigbaren, Abweichungen auch damit zusammenhängen, dass der Computer noch mit diversen anderen Aufgaben beschäftigt ist und somit nicht alle Ressourcen permanent gleichermaßen zur Verfügung stehen, wie ich vermute.
ZitatWie man sieht, weichen die Werte im Verhältnis zwischen Transkription und Echtzeit-Diktat stark ab. D. h. aber nicht, dass die Umsetzung auch gefühlt schneller ist. Rüdiger wird den technischen Hintergrund am besten erklären können.
Ja, würde ich gerne, aber was genau?
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Zitat von R.WilkeJa, würde ich gerne, aber was genau?
Ach, naja, was die Software mit dem Echtzeitfaktor genau misst und warum sich dieser bei der Umsetzung von Aufnahmen im Gegensatz zum Echtzeit-Diktat so grundlegend verringert. Hast Du glaube ich schon mal erklärt, aber ich bin so dumm wie arm.
Nun, in Deinem Fall bin ich aber recht guter Hoffnung, dass sich die Dinge noch zum Besseren wenden werden, in beiderlei Hinsicht.
Dann will ich es mal versuchen. Der Terminus „Echtzeitfaktor“ wird in der Forschung in zweierlei Weise verwendet, nämlich erstens im engeren Sinn zur Klassifizierung von Spracherkennungssystemen, bei denen die Ausgabe der Umsetzung bei akzeptabler Genauigkeit nicht mit erheblicher Verzögerung, sondern nahezu in Echtzeit erfolgt (historisch gesehen war das ja ein großer Fortschritt), und zweitens im weiteren Sinne und allgemein als ein Parameter zur Bestimmung der Performanz des Systems, also der Geschwindigkeit der Umsetzung.
Mathematisch betrachtet ist der Echtzeitfaktor der Quotient aus der Dauer der Umsetzung und der Dauer des Diktats. Wenn der Erkenner beispielsweise doppelt so lange braucht wie der Diktant, würde der Faktor bei 2,0 liegen, und bei 0,5, wenn der Erkenner doppelt so schnell ist. Ein System, was somit imstande ist, das Diktat in Echtzeit umzusetzen, muss daher konstant einen Faktor von rund 1,0 hervorbringen. Wie unser Drachen, wenn alles richtig läuft, was die Messungen zeigen.
Was aber wird gemessen, und wie geschieht das, und warum automatisch? – Mein Programm kommuniziert über eigens dafür eingerichtete Schnittstellen mit dem Programmcode von Dragon und fängt dabei die dafür relevanten und von Dragon erzeugten Signale, besser gesagt „Ereignisse“ ab. Für jede Äußerung erzeugt Dragon in etwa die folgenden Ereignisse, deren Bezeichnungen wohl für sich selbst sprechen:
Utterance Begin - Utterance End - Recognition Begin - Recognition End
Wenn mein Programm diese Ereignisse empfängt, werden intern Stoppuhren entsprechend betätigt, der Rest ist reine Buchhaltung.
Außerdem erzeugt Dragon für jede einzelne Äußerung ein eigenes sogenanntes „Results Object", welches alle für die Erkennung wesentlichen Informationen enthält, etwa den erkannten Text (kein Wunder), aber auch alle Varianten, die oben genannten Erkennungszeiten, die sogenannten „Confidence Scores" für die einzelnen Wörter, den Audiopart und noch einiges mehr.
Es ergibt sich, dass man die Möglichkeit hat, programmatisch auf diese Informationen zuzugreifen und die Daten auszulesen, was hierbei geschieht, anzunehmender Weise in wenigen Hundertstelsekunden. Außerdem, und das nur am Rande, sammelt Dragon die jeweiligen Erkennungsobjekte für die laufende Sitzung für verschiedene Zwecke, aber unter anderem dafür, rückwirkend im Text zu editieren und zu korrigieren.
Zu der Frage nun, warum der hier gemessene „Echtzeitfaktor“ (also genauer gesagt der Quotient aus der Erkennungsdauer und der Diktierdauer) bei Umsetzung einer Audiodatei immer wesentlich geringer ist als beim Online-Diktat, ist folgendes anzumerken.
Bei einem bereits aufgezeichneten Diktat muss Dragon nicht jeweils warten, bis der Diktant eine Pause macht, sodass das Ergebnis erst herausgegeben werden kann, sondern wird, so vermute ich wenigstens, die Datei bereits weiter im Voraus und vielleicht sogar schon bis zum Ende einlesen, wodurch die Erkennungszeiten deutlich reduziert werden. Gleichzeitig ist frappierend, dass für die Diktatzeiten dennoch genau die Werte verwendet werden, die in Echtzeit diktiert worden sind, oder anders formuliert: die Summe der gemessenen, oder angegebenen Diktatzeiten am Ende der Umsetzung einer Audiodatei ist genauso lang wie die Audiodatei selbst, beim Abspielen in Echtzeit.
Aus diesen unterschiedlichen Verhältnissen jedenfalls resultieren dann auch die sehr unterschiedlichen gemessenen Faktoren bei den beiden Verfahren.
Ich hoffe, das war einigermaßen richtig und verständlich und konnte dazu beitragen zu verdeutlichen, dass es sich hier nicht um irgendeinen Hokuspokus sondern um „wissenschaftliche“ und reproduzierbare Methodik handelt.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Ganz herzlichen Dank für die ausführlichen Erklärungen, die Mühe mit dem Vergleich zweier Systeme und den Hinweis auf das Testprogramm DragonBench!
Ich habe einen kurzen (56 Sek.) Text dreimal vorgelesen und erhalte im Mittel Werte von 0,98. Als Mikrofon steht ein Speechmike LFH3500 zur Verfügung. Der gleiche Text als MP3 Datei ergab im Mittel einen Echtzeitfaktor von 0,14.
In Ihrem Test, Meinhard, liegen die Ergebnisse für den Echtzeitfaktor bei Ihren beiden Systemen sehr nah beieinander. Ich gehe nun davon aus, dass das von mir angedachte Upgrade nur einen geringen Performance-Zuwachs ergeben wird, der zu den Kosten in keinem sinnvollen Verhältnis steht.
Gern geschehen, und Danke für Umsetzung und Rückmeldung. Ein Faktor von 0,14 ist schon verdammt gut, Sie müssen wohl ein ziemlich schnelles System haben. Mit meinen, schon etwas betagteren Computern bekomme ich das jedenfalls nicht hin. Also, alles im Lot auf dem Boot.
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD