Fragen zur Anwendung » Obergrenze des benutzerdefinierten Vokabulars?

Sie können sich hier anmelden

Dieses Thema hat 5 Antworten
und wurde 156 mal aufgerufen

Fragen zur Anwendung

RE: Obergrenze des benutzerdefinierten Vokabulars?

Zitat · Antworten

Gibt es Erkenntnisse, welche Zahl an Wörtern das benutzerdefinierte Vokabular umfassen kann, bevor die Erkennungsleistung des Drachen beeinträchtigt wird?

Ich hatte unterstellt, da gäbe es kein erreichbares Limit, bilde mir jetzt aber ein, dass ab 20 - 30.000 Wörtern die Erkennungsgenauigkeit insgesamt nachlässt. Dieser subjektive Eindruck basiert auf einem Vergleich zwischen Benutzern ohne benutzerdefiniertes Vokabular und mit einem solchen von 28.000 Wörtern.

Ist man breit tätig, sammeln sich schnell etliche 1000 Wörter als unverzichtbar an. Weitere in fünfstelliger Zahl verdanke ich einem Fachvokabular, das ich vor Jahren installiert habe, was ich besser hätte bleiben lassen sollen. Zusätzlich füge ich im Vorfeld der Bearbeitung eines Spezialgebiets schon mal rund 1000 Wörter bei, auch wenn ich schlussendlich davon dann höchstens die Hälfte verwende.

Sollte die Vermutung richtig sein, dass zu viele Wörter im benutzerdefinierten Vokabular dem Drachen abträglich sind, müsste man spezialisierte Benutzer mit unterschiedlichen Schwerpunkten anlegen?

Für diese Vermutung spricht die Erläuterung in der Drachenhilfe:

"Das aktive Vokabular enthält die Wörter, die Dragon NaturallySpeaking Professional höchstwahrscheinlich beim ersten Versuch erkennt, ohne dass zusätzliche Korrekturen oder Training erforderlich sind. Die Wörter des aktiven Vokabulars werden in den Arbeitsspeicher des Computers geladen.

Die Anzahl der Wörter im aktiven Vokabular bleibt stets unverändert. Wenn Sie neue Wörter hinzufügen, werden Wörter, die seit einiger Zeit nicht mehr verwendet wurden, aus dem aktiven Vokabular gelöscht; sie bleiben jedoch im Lexikon auf der Festplatte gespeichert."

Nachdem die Software Wörter aus dem benutzerdefinierten Vokabular generell nicht in das Hintergrundlexikon auslagert, könnte das darauf hinauslaufen, dass im Arbeitsspeicher nicht mehr genug vom Standardvokabular Platz hat.

Leider schweigt die Drachenhilfe dazu, wie groß die Zahl der Wörter im aktiven Vokabular ist. Weiß das jemand?

DNS 11 Prof - Win7/64 Ultim - Intel Xeon W3520/12 GB - SSD Intel 160 GB

#2 RE: Obergrenze des benutzerdefinierten Vokabulars?

Zitat · Antworten

Um herauszufinden, wie viele Wörter im aktiven Vokabular gespeichert sind, gibt es einen einfachen Trick:

öffnen Sie den Vokabular-Editor, markieren Sie das 1. Wort und drücken Sie danach die Tastenkombination Shift-End. Klicken Sie danach auf trainieren. Sie erhalten eine Fehlermeldung, in der praktischerweise auch steht, wie viele Wörter im aktiven Vokabular enthalten sind.

Bei mir sind es 148.000 und ein paar zerquetschte. Davon sind 2038 benutzerdefiniert. (Die können Sie nach derselben Methode zählen: Wählen Sie einfach die Option "nur benutzerdefinierte Wörter".)

Möglicherweise ist die schwache Erkennungsleistung dem fehlenden Kontext zu verdanken, in dem diese Wörter vorkommen könnten. Wörter sollten, wenn möglich, immer im Kontext eingefügt werden, also auf Basis einer Dokumentenanalyse. Bei der Rechenleistung Ihres Computers kann ich mir kaum vorstellen, dass der Arbeitsspeicher durch die vielen Wörter überlastet sein könnte.

Meine empfohlenes Vorgehen sieht so aus:
Wörterliste importieren
Dokumente analysieren - einfacher mit der Funktion "Wörter aus Dokumenten dem Vokabular hinzufügen" aus dem Erkennungscenter. Die Option "an Schreibstil anpassen" verwenden.

Manchmal ist es besser, ein Vokabular von Grund auf neu aufzubauen. Am besten machen Sie dies mit Dokumenten, die Sie in letzter Zeit diktiert haben.

Ich möchte Ihnen dringend davon abraten, künftig Tausende von Wörtern ohne Kontext zu importieren. Ohne Kontext hat der Drachen deutlich mehr Mühe zu erraten, was Sie wohl gemeint haben.

in2comp Spracherkennung in der Schweiz - www.in2comp.ch

#3 RE: Obergrenze des benutzerdefinierten Vokabulars?

Zitat · Antworten

Zitat von bk82
Um herauszufinden, wie viele Wörter im aktiven Vokabular gespeichert sind, gibt es einen einfachen Trick:

öffnen Sie den Vokabular-Editor, markieren Sie das 1. Wort und drücken Sie danach die Tastenkombination Shift-End. Klicken Sie danach auf trainieren. Sie erhalten eine Fehlermeldung, in der praktischerweise auch steht, wie viele Wörter im aktiven Vokabular enthalten sind.

Bei mir sind es 148.000 und ein paar zerquetschte. Davon sind 2038 benutzerdefiniert. (Die können Sie nach derselben Methode zählen: Wählen Sie einfach die Option "nur benutzerdefinierte Wörter".)

Danke für den Tipp zur Bestimmung der Wörterzahlen im Vokabular.

Bei dessen Verwendung ergeben sich bei mir je nach Benutzer Werte von 177.000 bis hinunter zu 148.000, wobei im benutzerdefinierten Vokabular im ersten Fall 28.000 und im letztgenannten 500 enthalten sind. Woher die kommen, ist unklar, denn diesem Vokabular hatte ich keine benutzerdefinierten Einträge hinzugefügt.

Mithin ist die Drachenhilfe insofern etwas irreführend, als sie angibt, die Größe bliebe immer gleich. Die Aussage bezieht sich nur auf die Größe des aktiven Vokabulars abzüglich der benutzerdefinierten Einträge und passt auch dann nicht hundertprozentig.

Jedenfalls kann man es auf der Basis dieses Tests auf sich beruhen lassen, wenn das benutzerdefinierte Vokabular immer weiter anwächst und diesen Umstand nicht dafür verantwortlich machen, wenn die Erkennungsleistung nachlässt. Dies bezieht sich übrigens in meinem Fall nicht auf die Fachtermini, sondern auf alltägliche Phrasen und insbesondere die Endungen.

Zitat von bk82

Möglicherweise ist die schwache Erkennungsleistung dem fehlenden Kontext zu verdanken, in dem diese Wörter vorkommen könnten. Wörter sollten, wenn möglich, immer im Kontext eingefügt werden, also auf Basis einer Dokumentenanalyse. Bei der Rechenleistung Ihres Computers kann ich mir kaum vorstellen, dass der Arbeitsspeicher durch die vielen Wörter überlastet sein könnte.

Meine empfohlenes Vorgehen sieht so aus:
Wörterliste importieren
Dokumente analysieren - einfacher mit der Funktion "Wörter aus Dokumenten dem Vokabular hinzufügen" aus dem Erkennungscenter. Die Option "an Schreibstil anpassen" verwenden.

Manchmal ist es besser, ein Vokabular von Grund auf neu aufzubauen. Am besten machen Sie dies mit Dokumenten, die Sie in letzter Zeit diktiert haben.

Ich möchte Ihnen dringend davon abraten, künftig Tausende von Wörtern ohne Kontext zu importieren. Ohne Kontext hat der Drachen deutlich mehr Mühe zu erraten, was Sie wohl gemeint haben.

In der Praxis wird man meines Erachtens nicht darum herumkommen, dem Vokabular neue Spezialbegriffe hinzuzufügen, wenn man es mit neuen Spezialgebieten zu tun hat. Da ist es das kleinere Übel, den Drachen im Vorfeld Fachtexte oder ein Stichwortverzeichnis lesen zu lassen, statt dann ständig im Korrekturfenster herumzuhängen, weil nicht erkannt wird, was nicht erkannt werden kann.

Dass ein solches Vorgehen nicht optimal ist und es besser wäre, dem Drachen neue Wörter im Kontext zuzuführen, will ich damit nicht in Abrede stellen.

DNS 11 Prof - Win7/64 Ultim - Intel Xeon W3520/12 GB - SSD Intel 160 GB

#4 RE: Obergrenze des benutzerdefinierten Vokabulars?

Zitat · Antworten

Ich möchte hinzufügen, dass der Unterschied im Umfang des Vokabulars vermutlich darauf zurückzuführen ist, dass dem einen Sprecherprofil ein Fachvokabular importiert wurde, dem anderen nur einzelne Wörter (wie auch immer die in dieses Profil gelangt sind - bis einschließlich Dragon NaturallySpeaking 10.0 hat die Spracherkennung gelegentlich unkontrolliert Wörter zum Wortschatz hinzugefügt). Benutzerdefinierte Wörter werden in einem anderen Teil des Vokabulars gespeichert als ein professionell erstelltes und in eine professionelle Version von Dragon NaturallySpeaking (Professional, Legal, Medical) importiertes Vokabular. Dieser für die professionellen Versionen reservierte Speicher, der so genannte Middle Slot, kann noch einmal mehrere 10.000 Wörter aufnehmen. Außerdem werden dort signifikante Modifikationen im Sprachmodell gespeichert, die über eine reine Wortliste oder auch benutzerdefiniertes Hinzufügen von einzelnen Wörtern so nicht vorgenommen werden.

Ich kann mich an Versuche erinnern, die über 100.000 Wörter zum Vokabular hinzugefügt haben, und zwar über reine Wortlisten - ich kann mir aber nicht vorstellen, dass dies in irgendeiner Weise der Erkennungsgenauigkeit geholfen hat.

-dsk

#5 RE: Obergrenze des benutzerdefinierten Vokabulars?

Zitat · Antworten

Ich bin mit allem einverstanden, was meine Nachredner geschrieben haben. In der Tat unterliess ich es, auf die Möglichkeit hinzuweisen, auch Fachtexte zu importieren, die man nicht selbst geschrieben hat.
Damit kann auch ein guter Kontext geliefert werden, immerhin besser als nichts, vor allem wenn es um Tausende von Wörtern geht.

Nochmal zusammengefasst Meine Meinung:
Kurze Wortlisten sind o.k. und können ohne Kontext importiert werden (ein paar 100 Wörter).
Darüber hinaus sollte möglichst im Kontext hinzugefügt werden. Wann immer möglich, mit eigenen Texten, andernfalls mit Fachtexten, die das gewünschte Vokabular enthalten.

in2comp Spracherkennung in der Schweiz - www.in2comp.ch

#6 RE: Obergrenze des benutzerdefinierten Vokabulars?

Zitat · Antworten

Heute Abend von der Nordsee zurückgekehrt, eine frische Brise Meeresluft in der Nase und eine Portion fangfrische Austern intus - selbstverständlich mit eiskaltem Sekt -, lese ich soeben die Beiträge zu dieser sehr interessanten Fragestellung. Die kurze Antwort zur Ausgangsfrage lautet: weil es beim Vokabular auch um Speicherplatz geht, gibt es selbstverständlich eine Obergrenze, die dürfte aber in der Praxis nicht erreicht werden und sollte von daher kein Problem darstellen, und die Erkennungsgenauigkeit einzelner Einträge hängt nicht vom Wachstum des gesamten Vokabulars ab.

Nach allen bisherigen Erkenntnissen ist die maximale Aufnahmefähigkeit des Vokabulars bei etwa 200.000 Einträgen erschöpft. Da wir, wie einige bereits schon ausgeführt haben, zu Beginn mit knapp 150.000 Einträgen anfangen, haben wir also ausreichend Gestaltungsraum zur Verfügung. Exakte Zahlen kann man an dieser Stelle nicht nennen, weil selbstverständlich nicht alle Einträge gleichermaßen viel Speicherplatz belegen, die Zahlen sind somit nur annähernd, aber ausreichend genau.

Wir müssen zunächst unterscheiden zwischen den - wie ich das jetzt hier so nenne - werkseitigen und den benutzerdefinierten Wörtern. Die "werkseitigen" Wörter sind diejenigen, die vom Hersteller auf der Basis der Analyse eines riesengroßen Korpus an Texten ausgesucht wurden und aufgrund der Häufigkeit ihres Erscheinens in diesen Texten in den aktiven Wortschatz aufgenommen worden sind. Dies sind zunächst die etwa 150.000 Wörter, die wir von Beginn an bei der Anlage eines Benutzerprofils in der aktuellen Version zur Verfügung haben, und wir sollten uns klarmachen, dass es hier eigentlich mehr um Wortformen und Wortzusammensetzungen geht als um Wörter. Daneben aber gibt es noch etwa - Gerüchten zufolge - weitere ca. 250.000 Einträge im so genannten Hintergrundvokabular, die bei der oben beschriebenen Analyse ebenfalls erfasst worden sind, jedoch zunächst nicht aktiviert worden sind. Dies hat praktische Gründe.

Beim Aufbau eines Vokabulars zur kontinuierlichen Spracherkennung besteht grundsätzlich dieselbe Problematik wie in der Fremdsprachendidaktik, wenn auch nur vergleichsweise. Im Fremdsprachenunterricht wird mit der Unterscheidung zwischen dem Grundwortschatz (eine Liste von 1000 Wörtern, die am häufigsten verwendet werden und womit ca. 40 % aller durchschnittlichen Texte abgedeckt sind) und dem Aufbauwortschatz der begrenzten Lernfähigkeit des Schülers Rechnung getragen, in der Spracherkennung geht es um Rechenleistung, die zwar prinzipiell unbegrenzt ist, in der Praxis aber die Grenze der Nutzbarkeit markiert. In der Anfangszeit der Implementierung von kontinuierlichen Spracherkennungssystemen umfasste ein "großes Vokabular" zunächst 10.000 oder 20.000 Einträge, später mehr als 50.000 - und diese Zahlen sind noch nicht einmal 20 Jahre alt!

Mit anderen Worten: es wäre technisch überhaupt kein Problem, wenn der Drachen permanent sämtliche ca. 400.000 Einträge aktiv bei der Suche nach dem passenden Wort zur Verfügung hätte, wir wären jedoch sehr wahrscheinlich mit seiner Performance alles andere als zufrieden. Es müssen also Prioritäten gesetzt werden, und dabei spielt das Prinzip der Häufigkeit der Verwendung die entscheidende Rolle.

Daneben aber stellen wir sehr schnell fest, dass wir selbst mit dieser sehr großen Anzahl an vorgefertigten Einträgen unsere täglichen Diktate nicht bewältigen können, wir kommen nicht umhin, eigene Wörter oder Worteinträge hinzuzufügen. Dafür haben wir aber, wie bereits oben ausgeführt, noch ausreichend Platz zur Verfügung, bevor das Vokabular buchstäblich "überläuft" und andere, bereits vorhandene Einträge entfernt werden. Wenn dies der Fall ist, dann wiederum nach dem schon erwähnten Prinzip der Priorität.

Die von Beginn an aktiven Wörter sind im Vokabular ohne Auszeichnung gelistet, die Wörter aus dem Hintergrundvokabular bekommen einen grünen Stern, die benutzerdefinierten Wörter bekommen einen roten Stern. Wenn wir die Entwicklung eines Vokabulars bei einem Benutzerprofil über längere Zeit beobachten - anhand der jeweiligen Anteile, die wir wie beschrieben zählen können -, werden wir erkennen, dass sich die Zahlen nach offensichtlich nicht nachvollziehbaren Kriterien ändern, Fakt aber ist, dass diejenigen Wörter, die wir tatsächlich verwenden, genauer gesagt, die erkannt werden, vorhanden sind. Jedes Mal, wenn ein Wort verwendet wird (wenn es erkannt wird), steigt sein Häufigkeitsquotient, und die Wahrscheinlichkeit, dass es wieder erkannt wird, steigt ebenso. Es kann zwar vorkommen, dass Einträge aus dem aktiven Wortschatz ins Hintergrundvokabular verschoben werden. Programmatische, also nicht von uns vorgenommene Verschiebungen sind allerdings nur bei den "schwarzen" und "grünen" Einträgen möglich. Benutzerdefinierte Einträge werden nicht vom Programm gelöscht.

Ob aber ein einzelner Eintrag erkannt wird, sofern er überhaupt im Vokabular enthalten ist, hängt wiederum nicht oder nicht nur von seinem Häufigkeitsquotienten ab, denn allen Einträgen wird gleichermaßen ein korrigierender Faktor beigegeben, der alle Wahrscheinlichkeitsrechnungen überstimmen kann, jeder Eintrag bekommt sozusagen "seine Chance". Wäre dies nicht der Fall, würde es keinen Sinn machen, überhaupt mehr als etwa 1000 Einträge im Vokabular aufzuführen, denn alle anderen Einträge hätten ungefähr die gleichen Chancen wie die kleinen Splitterparteien bei der Bundestagswahl. Aus demselben Grund aber macht es keinen Sinn, Phrasen ins Vokabular aufzunehmen, die letztendlich auch nur aus Wörtern bestehen, die ohnehin als Einzeleinträge im Vokabular schon enthalten sind. Die Erkennungsgenauigkeit der Phrase an sich wird dadurch nicht grundsätzlich gesteigert, nur dann, wenn die Phrase auch als solche erkannt wurde. Wird die Phrase aber über längere Zeit nicht mehr diktiert, gerät sie ebenso in Vergessenheit.

Wovon es aber abhängt, ob ein einzelnes Wort als solches erkannt wird, soll hier nicht weiter behandelt werden, dies ist ein ganz anderes Thema. An dieser Stelle soll nur noch darauf hingewiesen werden, dass die benutzerdefinierten Einträge nicht nur ohne Kontext, wie bereits ausgeführt wurde, sondern auch ohne jede Wahrscheinlichkeit nach Häufigkeit - abgesehen von der oben beschriebenen grundsätzlichen Chancengleichheit - eingeführt werden, und dadurch bedingt gegenüber allen anderen Wörtern schon per se im Nachteil sind. Bei kritischen Wörtern, also solchen, die schnell mit anderen Wörtern verwechselt werden können aufgrund ihrer Lautung, ist es daher insbesondere wichtig, die Häufigkeit ihres Vorkommens anhand von Textanalysen vorab zu steigern.

Abschließend muss ich noch erwähnen, dass ich den Hinweis auf den "Middle Slot" nicht ganz nachvollziehen kann, da dort lediglich Informationen das Sprachmodell betreffend, nicht jedoch Wörter abgelegt werden.

Rüdiger Wilke

_______________________________________

Dragon Professional 16 auf Windows 10 Pro und Windows 11
SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo)
HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD

Ähnliche Themen	Antworten/Neu	Letzter Beitrag⁄Zugriffe
Welche Befehle im Dragon nutzt ihr gern? Erstellt im Forum Fragen zur Anwendung von Janosh	1	20.02.2024 12:20 von max.flinter • Zugriffe: 339
Benutzerprofil übertragbar Erstellt im Forum Fragen zur Anwendung von Jedlova	2	08.08.2022 19:41 von Jedlova • Zugriffe: 217
Mit Dragon Anywhere gesynctes Profil zerschossen - was hilft? Erstellt im Forum Fragen zur Anwendung von karlheinz.lang	7	02.04.2022 16:23 von karlheinz.lang • Zugriffe: 338
Schreibweise von Ziffern nach Nummer (Nr.) Erstellt im Forum Fragen zur Anwendung von NormalNull	8	07.03.2022 16:12 von glombi • Zugriffe: 376
Maximale Kapazität des benutzerdefinierten Vokabulars Erstellt im Forum Dies und Das von Lena	3	30.01.2024 19:56 von Lena • Zugriffe: 835
Befehle ausdrucken Erstellt im Forum Fragen zur Anwendung von Dioskur	0	08.02.2022 01:46 von Dioskur • Zugriffe: 167
Dragon schreibt immer „2A“ und nicht „2a“ Erstellt im Forum Fragen zur Anwendung von rc.otto	2	13.10.2021 12:06 von rc.otto • Zugriffe: 338
Das Vokabular xyz existiert nicht Erstellt im Forum Fragen zur Anwendung von JanBob	3	14.06.2021 12:42 von JanBob • Zugriffe: 274
Dragon in Task-Leiste Erstellt im Forum Berichte und Tipps von glombi	4	11.02.2021 21:28 von glombi • Zugriffe: 832
Vokabular – Speichern von temporären Wörtern verbieten Erstellt im Forum Fragen zur Anwendung von Kasjan	2	05.02.2021 17:26 von Kasjan • Zugriffe: 370

Sprung

Anwenderforum für die Dragon-Spracherkennung

Bitte geben Sie einen Grund für die Verwarnung an