FAQ & Troubleshoot: » Glossar (in Bearbeitung)

Administrative Einstellungen

Advanced Scripting

Aktives Vokabular

Akustisches Archiv

Akustisches Modell

Anwendungen

Artikulation

Audio-Assistent

Audio-Wiedergabe

Aussprache

Befehlscenter/Befehlseditor

Benutzer

Benutzerdateien

Benutzerdefinierte Befehle

Benutzerdefinierte Wörter

Benutzerprofil

Benutzerprofil exportieren/importieren

Benutzerprofil wiederherstellen

Benutzerverwaltung

ctfmon.exe

Diktierfenster

Diktierquellen

Diktion

DRA-Dateien

Dragon-Leiste

DragonPad

Einstellungen/Optionen

Erkennungsansicht

Erkennungsfehler

Erkennungsfenster

Erkennungsgenauigkeit

Export - Befehle

Export - Vokabular

Export - Wörter

Formatierung

Geschriebene/gesprochene Form

Korrekturmenü

Lexikon

Modelle

Modelloptimierung

N-Gramme

Phrasen

Phrasierung

Profil

Profilverlust

Select & Say

Sprachmodell

Training

Vokabular

Vokabulareditor

Worteigenschaften

Wortschatz

________________________________________

Administrative Einstellungen

Nur selten verwendete, nicht an das jeweilige Benutzerprofil gebundene Einstellungen können hier vorgenommen werden. Es handelt sich dabei im Wesentlichen um die Aktivierung des sog. Server-Profils (kommt für Einzelanwender nicht in Betracht), die Einstellung des Speicherpfads der Benutzerdateien, die planmäßige Durchführung der Modelloptimierung, aber auch die Deaktivierung der sog. erweiterten Windows-Textdienste, die unbedingt zu beachten ist.

Die administrativen Einstellungen befinden sich im Menü "Extras", sind aber ausgegraut, solange ein Benutzerprofil geladen ist. Wenn das Profil über "Benutzer schließen" unter "NaturallySpeaking" beendet wird, oder wenn das Programm gestartet, aber kein Profil geladen wird, werden die Einstellungen verfügbar.

________________________________________

Advanced Scripting

Dragon NaturallySpeaking verfügt über eine proprietäre Skriptsprache namens Advanced Scripting, die sich in den Grundzügen an Visual Basic anhlehnt und viele Elemente daraus enthält. Mit ihr können Makros zur Steuerung des Programms, aber auch anderer Anwendungen, wie Word, Outlook u.v.m., aber auch des Windows-Betriebssystems selbst geschrieben werden. Auf diese Weise ist es möglich, mehrere immer wieder aufeinander folgende Programmabläufe zu automatisieren.

Zusätzlich können u.a. Benutzerdialoge eingebaut (z.B. zur Abfrage und Eingabe von Daten), Bedingungen geprüft (if-Abfragen oder Schleifen), Variablen belegt und im Verlauf des Skripts geändert oder programminterne Funktionen (z.B. aktuelles Datum, Name des Bearbeiters usw.) verwendet werden.

Im Befehlseditor oder über "Extras, Neuen Befehl erstellen..." können solche Makros angelegt werden. Sie gehören dort zur Gruppe der benutzerdefinierten Befehle. Man kann dort aber auch schon vorhandene Skripte im Format .dat importieren, über den Menüpunkt "Verwalten". Das Beispiel kann dazu herunter geladen werden und auf dem Arbeitsplatz gespeichert werden. Es enthält den Programmcode zur automatisierten Anlage eines Schreibens im jeweils aktuellen Ordner im Windows Explorer, nach Eingabe des Adressaten und Anfügen des aktuellen Datums, darauf mit Prüfung, ob ein Dokument dieses Namens schon vorhanden ist; wenn nicht, wird das Dokument gespeichert und anschließend zum Diktat in Microsoft Word geöffnet. Aufgerufen wird es mit dem Befehl "starte Schreiben" und ist für den Windows-Explorer spezifisch definiert, kann also nur von dort aus aufgerufen werden.

Die Fähigkeit, solche Skripte selbst zu erstellen, setzt aber zumindest grundlegende Progammierkenntnisse voraus, oder ist mit einer gewissen Lernkurve verbunden. Die mitgelieferten Beispielskripte und die eingebaute Online-Hilfe können die ersten Schritte erleichtern. Empfehlenswert für interessierte Einsteiger ist das Buch Advanced Scripting for Dragon NaturallySpeaking von Larry V. Allen, erhältlich im Fachhandel, seit kurzem auch in dt. Übersetzung.

________________________________________

Aktives Vokabular

Siehe dazu Lexikon, Vokabular, Wortschatz

________________________________________

Akustisches Archiv

Die während der Diktate vorgenommenen Korrekturen können aufbewahrt und zur Optimierung der Modelle (akustisches und linguistisches Modell) später verwendet werden. Hierzu muss unter "Extras, Optionen, Daten" die Option "Korrekturen im Archiv speichern" aktiviert sein (Standardeinstellung). Die Größe des Archivs kann durch Klick auf den nebenstehenden Button eingestellt werden, voreingestellt ist der Maximalwert (kann beibehalten werden).

________________________________________

Akustisches Modell

"Ein akustisches Modell ist die digitale Repräsentation der Klangmuster einzelner Wörter.
Dragon NaturallySpeaking Professional sammelt Daten für das akustische Modell Ihrer Stimme während des anfänglichen Trainings, während Sie im Korrekturfenster arbeiten, beim Trainieren einzelner Wörter und während des ergänzenden Trainings." (Aus der Online-Hilfe)

Das akustische Modell und das linguistische Modell stellen die grundlegenden Mechanismen des Spracherkennungsprozesses dar. Im akustischen Modell sind die Aussprachen (Phonemisierungen) der Wörter im Lexikon niedergelegt, wonach die Zuordnung zwischen den Einheiten der gesprochenen Rede und den Lexikoneinträgen erfolgt.

Bereits bei der Anlage eines Benutzerprofils, also noch bevor der Anwender das Profil trainiert, ist ein universelles akustisches Modell vorhanden, basierend auf den Durchschnittswerten einer Vielzahl von analysierten gesprochenen und geschriebenen Texten. Im Verlauf der Arbeit mit dem Programm, wie im o.g. Zitat zusammengefasst, wird das Modell durch den Gebrauch des Anwenders modifiziert.

Wegen in der Praxis nicht immer gleich bleibender Artikulation während des Diktates kann es jedoch zu Überlagerungen im Modell kommen, die durch das Programm nicht mehr ausgeglichen werden können, Fehlerkennungen sind das Resultat. Eine Modelloptimierung kann dann helfen, die Störungen auszugleichen und das Modell wieder zu bereinigen.

________________________________________

Anwendungen

________________________________________

Artikulation

Artikulation definieren wir als einen Teil der Diktion, und verstehen darunter die klare und deutliche Formung jedes einzelnen Wortes beim Sprechen, möglichst in der Weise, wie ein Nachrichtensprecher vorliest. Die Qualität der Artikulation ist entscheidend für die Erkennungsgenauigkeit.

Mangelhafte Artikulation (Nuscheln, Verschlucken der Endungen, Verschlingen der Wörter) führt unmittelbar zu Fehlern bei der Umsetzung des Diktates, siehe auch Erkennungsfehler.

________________________________________

Audio-Assistent

Bei der Anlage eines Benutzerprofils, aber auch jedes Mal, wenn das Eingabegerät gewechselt wird, muss der Audio-Assistent, auch Audio-Setup genannt, ausgeführt werden. Dabei wird ein Probetext aufgesprochen, wobei zunächst der Lautstärkepegel des Audiosignals eingestellt wird, anschließend der Rauschabstand (Verhältnis des Sprachsignals zu den Hintergrundgeräuschen) eingemessen wird. Bei zu geringem Rauschabstand gilt der Test als nicht bestanden, dies ist der Fall, wenn der vom Programm errechnete Wert unterhalb von 16 liegt. In der abschließenden Grafik sollten die Anteile der gelben Balken (Rauschen) im Verhältnis zu den grünen (Gesamtpegel) möglichst gering sein.

Nach dem Aufruf des Assistenten werden zunächst alle aktuell angeschlossenen Eingabegeräte angezeigt, deshalb auch die eingebaute oder, sofern vorhanden, externe Soundkarte, auch wenn diese nicht in Betracht kommt. Wichtig ist hierbei darauf zu achten, dass das verwendete Gerät (Mikrofon oder Headset) dort aufgeführt ist, was aber immer der Fall ist, wenn das Gerät im System erkannt ist, und dass dieses für die Durchführung des Testes auch ausgewählt wird. Das Gerät sollte auch möglichst als Standardeingabegerät in den Windows-Soundeinstellungen definiert sein.

Weiterhin kann der Audio-Assistent ausgeführt werden, wenn im Verlauf des Diktates Schwankungen in der Erkennungsgenauigkeit auftreten, was möglicherweise darauf zurückzuführen ist, dass sich die akustischen Verhältnisse verändert haben. Hierzu klickt man auf "Extras > Erkennungszenter > Audioeinstellungen prüfen".

________________________________________

Audio-Wiedergabe

Die während des Diktates gesprochenen Texte (auch Satzzeichen, Zeilen- und Absatzschaltungen) werden vom Programm aufgezeichnet und können wiedergegeben werden. Hierfür müssen die betreffenden Passagen zunächst markiert werden, anschließend kann die Wiedergabe mit dem Befehl "Auswahl wiedergeben", über das Kontextmenü der rechten Maustaste mit dem selben Befehl oder mit der Wiedergabetaste in der Dragon-Leiste, sofern dort der untere Teil eingeblendet ist (über "Extras > Optionen > Ansicht > Extras anzeigen"), gestartet werden. Zu unterscheiden hiervon ist die Funktion "Auswahl lesen", wobei der Text von der synthetischen Stimme der "Vera" gelesen wird (Text-To-Speech).

Eine nützliche Anwendung der Playback-Funktion besteht darin, bei Erkennungsfehlern zu überprüfen, ob ggf. mangelhafte Artikulation ursächlich war. In dem Fall ist es zu empfehlen, den Text nicht über das Korrekturmenü zu verbessern, sondern ihn einfach neu zu diktieren, damit das Programm sich nicht die falsche Lautung einprägt.

Die Audiodaten werden nach Beenden der Sitzung wieder aus dem Speicher gelöscht, sollen sie aufbewahrt werden, müssen sie separat mit dem Dokument abgespeichert werden (siehe hierfür DRA-Dateien). Die Größe des Speichers kann in den Optionen eingestellt werden, unter "Daten - Für die Wiedergabe reservierter Speicherplatz". Voreingestellt ist hier 40 MB, eine Minute Diktat benötigt etwa 1 MB. Der Speicher kann auf einem Rechner mit ausreichend großer Festplatte auch ohne weiteres auf 400 MB eingestellt werden. Wird er auf 0 MB eingestellt, wird keine Wiedergabe gespeichert.

________________________________________

Aussprache

Im engeren Sinne definieren wir Aussprache als die sprecherunabhängige Lautung, die einem Wort im akustischen Modell zugeordnet und dort in Form einer Lautschrift hinterlegt ist. Im Unterschied dazu verstehen wir unter Artikulation die Art und Weise, wie ein Wort tatsächlich ausgesprochen wird. Artikulation ist immer unterschiedlich, je nach Sprecher, Situation und akustischen Verhältnissen. Aussprache dagegen, nach unserem Verständnis, ist immer gleich.

Diese Unterscheidung beruht auf dem Gegensatz zwischen Phonemik und Phonetik, wie er in der Linguistik geprägt worden ist.

________________________________________

Befehlscenter/Befehlseditor

Das Befehlscenter zeigt alle verfügbaren Befehle an und wird geöffnet über das Menü "Extras > Befehlscenter..." oder per Diktat mit "Befehlszenter anzeigen". Nach Öffnen des Fensters stehen drei verschiedene Modi zur Verfügung.

• Durchsuchen: Hier werden alle Befehle nach Kontext gruppiert angezeigt, entsprechend der Auswahl oben links im Listenfeld. Zusätzlich kann oben rechts ein Filter gesetzt werden, mit dessen Hilfe nur bestimmte Befehle angezeigt werden. Auf diese Weise kann zum Beispiel ganz gezielt nach Befehlen gesucht werden, die das Wort "Absatz" enthalten und im Zusammenhang mit Microsoft Word verwendet werden können. In diesem Modus können die Befehle u.a. trainiert werden.

• Skript: Hier werden alle Befehle angezeigt, die der Benutzer selbst angelegt hat. Nur solche Befehle können bearbeitet oder gelöscht werden, für deren Bearbeitung steht der Befehlseditor zur Verfügung. Die fest eingebauten Befehle können nicht gelöscht oder verändert werden. Um einen neuen Befehl zu erstellen, kann der Befehlseditor entweder aus dem Befehlscenter oder auch direkt aufgerufen werden über das Menü "Extras > Neuen Befehl erstellen..." oder mittels Sprachbefehl "Befehlseditor".

• Verwalten: In diesem Modus können Befehle exportiert oder importiert werden, dies gilt jedoch auch nur für die benutzerdefinierten Befehle.

________________________________________

Benutzerdefinierte Befehle

Im Unterschied zu den fest eingebauten, im Auslieferungszustand bereits enthaltenen Befehlen, können benutzerdefinierte Befehle hinzugefügt, verändert, exportiert und importiert werden. Jedoch sind bereits auch im Auslieferungszustand einige Beispiele für benutzerdefinierte Befehle enthalten, die ebenso bearbeitet werden können.

Für die Erstellung oder Bearbeitung benutzerdefinierter Befehle wird der Befehlseditor eingesetzt. Zur Erstellung eines neuen Befehls kann der Befehlseditor über das Befehlscenter erreicht werden, oder auch direkt gestartet mittels Sprachbefehl "Befehl erstellen". Um bereits vorhandene benutzerdefinierte Befehle zu bearbeiten, zu löschen oder zu exportieren/importieren, müssen diese im Befehlscenter ausfindig gemacht werden.

Bei der Anlage eines neuen Befehls muss der Anwender zunächst einen Befehlsnamen vergeben, der zugleich als Sprachbefehl fungiert, womit der Befehl aufgerufen wird. Zur besseren Organisation der benutzerdefinierten Befehle können sie einer bestehenden oder auch neu angelegten Befehlsgruppe zugeordnet werden, was insbesondere beim Export bzw. Import von Nutzen sein kann. Befehle können außerdem global oder anwendungsspezifisch definiert werden, so dass sie beispielsweise nur in einer bestimmten Textanwendung oder im Windows Explorer verwendet werden können.

Es stehen vier verschiedene Befehlstypen zur Verfügung, die sich jeweils hinsichtlich ihrer Einsatzmöglichkeiten und der Art, wie sie erstellt werden, unterscheiden:

• Text und Grafiken: mit diesem Befehlstyp werden einfache bis mehrzeilige Textbausteine erstellt, mit oder ohne Formatierung, die mittels Sprachbefehl in das Dokument eingefügt werden können, etwa Adressen, Schlussformel im Brief usw. Insgesamt zulässig sind bis zu 256 Zeichen innerhalb eines Textblocks.

• Makroaufnahme: von einem programminternen Recorder werden alle Aktionen während der Aufnahme aufgezeichnet und können anschließend reproduziert werden. Programmiertechnische Kenntnisse sind nicht Voraussetzung.

• Schritt für Schritt: der Anwender bekommt eine Auswahlmöglichkeit der zur Verfügung stehenden Funktionen, die nacheinander ausgeführt werden können und zusammenhängend abgespeichert werden. Auch hier sind keine weitergehenden Kenntnisse erforderlich. Es versteht sich jedoch von selbst, dass diese sowie die zuletzt genannte Befehlsart wenig variabel und daher nur begrenzt verwendbar ist.

• Skripterstellung: die größte Flexibilität bieten die Skripte oder Makros, mit deren Hilfe einfache bis hochkomplexe Programmabläufe intern oder extern gesteuert werden können. Variablen, Abfragen und Dialoge, Ansteuerung von Makros in anderen Anwendungen und Zugriff auf deren Schnittstellen sowie viele weitere Funktionen können zusätzlich genutzt werden. Hier sind jedoch programmiertechnische Kenntnisse unabdingbar. Das Programm verfügt über eine proprietäre Skriptsprache, die sich an VisualBasic anlehnt.

Anhand der bereits oben erwähnten mitgelieferten Beispiele können die unterschiedlichen Befehlstypen nachvollzogen werden. Weitere Informationen zu den benutzerdefinierten Befehlen findet man auch in den Texten der Online-Hilfe, die man im Befehlseditor aufruft.

Wer selbst Befehle anlegt oder Befehle überarbeitet, sollte zur Sicherheit gelegentlich einen Export der benutzerdefinierten Befehle durchführen, so dass sie im Bedarfsfall (Profilverlust) mit geringem Aufwand wiederhergestellt werden können.

________________________________________

Benutzerdefinierte Wörter

Obwohl der gesamte, werksseitig zur Verfügung stehende Wortschatz (aktiv und passiv) bereits nahezu 400.000 Einträge umfasst, wird jeder Anwender sehr schnell feststellen, dass bestimmte, für ihn möglicherweise immer wiederkehrende Wörter darin nicht enthalten sind. Dies sind insbesondere Eigennamen, Fachbegriffe und Abkürzungen.

Solche Wörter beziehungsweise Einträge können aber ins Vokabular eingefügt werden, nach derzeitigem Stand ist hier noch Platz für bis zu 150.000 Wörter und Wortformen. Im Vokabulareditor fügt der Anwender solche Einträge hinzu, sie werden dort mit einem roten Stern markiert. Die Anzeige im Vokabulareditor, der mittels Sprachbefehl "Wörter bearbeiten" oder über die Menüleiste aufgerufen wird, kann entsprechend gefiltert werden, so dass nur die benutzerdefinierten Einträge angezeigt werden.

Im Vokabulareditor können den geschriebenen Formen außerdem davon abweichende gesprochene Formen zugeordnet werden, sehr hilfreich zum Beispiel bei Abkürzungen, die ansonsten leicht missverstanden werden können, und die Aussprache der benutzerdefinierten Wörter kann hier trainiert werden. Weiterhin können hier die Worteigenschaften dieser Einträge verändert, oder die Einträge komplett gelöscht werden.

Ein weiteres Mittel zur Verbesserung der Erkennungsgenauigkeit ist die Aufnahme zusammenhängender Phrasen, die immer wieder verwendet werden, in Form benutzerdefinierter Einträge im Vokabular. Allerdings ist zu bedenken, dass die Einzelworterkennung immer der Erkennung der Phrase vorausgeht, so dass es vorkommt, dass nach einiger Zeit der Nicht-Verwendung die Phrase wieder "Vergessenheit" geraten kann, und statt dessen die einzelnen Wörter umgesetzt werden. Durch Korrektur kann das Gedächtnis aber wieder aufgefrischt werden.

Weil für Aufbau und Pflege des benutzereigenen Vokabulars auf Dauer ein nicht unerheblicher Aufwand anfallen kann, ist es von besonderer Wichtigkeit, dass der Wortbestand regelmäßig kontrolliert und zusätzlich separat gesichert wird, damit die Wörter im Bedarfsfall leicht wiederhergestellt werden können (Profilverlust). Hierzu stehen die Funktionen Export und Import der benutzerdefinierten Wörter zur Verfügung. Beim Einsatz von dns.comfort werden die Sicherungen automatisch erstellt.

________________________________________

Benutzerprofil, Benutzerdateien, Benutzer, Profil, User

Die im Titel genannten Bezeichnungen werden synonym verwendet für das Gesamt der personalisierten Anwenderdaten, die vom Programm angelegt und separat von den Programmdaten gespeichert werden. Ein Benutzerprofil besteht aus einer Vielzahl separater Einzeldateien, im Kern umfasst es die folgenden Inhalte:

• Akustisches Modell des Anwenders und Korrekturen im akustischen Archiv;

• Vokabular des Anwenders (Grundwortschatz und benutzerdefinierte Wörter und Worteigenschaften);

• Einstellungen des Anwenders (Formatierungen und Optionen, Geräte- und Menüeinstellungen usw.).

Damit die Spracherkennung also verwendet werden kann, muss zunächst ein Benutzerprofil angelegt werden, ist kein Profil vorhanden, wird ein Assistent gestartet, der den Anwender durch diesen Prozess führt. Das Benutzerprofil wird beim oder nach dem Programmstart geladen. Sofern der Anwender verschiedene Profile angelegt hat, werden diese dann zur Auswahl angezeigt. Standardmäßig ist hier das zuletzt verwendete Profil bereits markiert. Ein Benutzerprofil kann jedoch auch geschlossen werden, ohne dass das Programm beendet wird, etwa um ein anderes Profil zu laden.

Verschiedene Profile können dann sinnvoll sein, wenn der Anwender unterschiedliche Themen abdeckt, beispielsweise Fachgebiet und private Korrespondenz, und hierfür unterschiedliche Vokabulare angelegt hat; oder aber beim Einsatz verschiedener Diktierquellen (zum Beispiel Mikrofon und digitales Diktiergerät). Außerdem ist es erforderlich, falls mehrsprachig diktiert wird, für jede Sprache zumindest ein eigenes Profil anzulegen.

Jedes Mal, wenn während der Sitzung Veränderungen am Profil vorgenommen werden, beispielsweise neue Wörter hinzugefügt, wird der Anwender gefragt, ob er das Profil speichern möchte. In dem Ordner, wo sich das Profil befindet, wird zugleich eine Sicherungskopie geführt, die turnusmäßig je nach Einstellung überschrieben wird. Der Arbeitsordner trägt den Namen "current", der Sicherungsordner heißt "backup".

Die Sicherungskopie kann zur Wiederherstellung des Benutzerprofils zu einem früheren Zustand verwendet werden, etwa bei Profilverlust. Diese und weitere Arbeiten am Benutzerprofil werden in der Benutzerverwaltung ausgeführt. Hierzu gehören unter anderem auch der Export und Import der Profile, das Umbenennen oder Löschen eines Benutzerprofils, was jedoch nur dann möglich ist, wenn das Profil nicht geladen ist, sowie die Anlage eines neuen Profils.

________________________________________

Benutzerprofil exportieren/importieren

Export bzw. Import von Benutzerprofilen erfolgt über die Benutzerverwaltung, dort im Hauptfenster wird das betreffende Profil markiert, nach Klick auf "Erweitert" stehen die entsprechenden Schaltflächen zur Verfügung. Im darauf folgenden Fenster kann der gewünschte Pfad für den Export bzw. Import gewählt werden.

Export und Import von Benutzerprofilen können für die folgenden Aufgaben verwendet werden:

• Verschieben des aktuell verwendeten Benutzerprofils an einen anderen Speicherort auf dem selben Rechner;

• Auslagern des aktuell verwendeten Benutzerprofils auf einen anderen Rechner zur dortigen Verwendung;

• Erstellen einer zusätzlichen Sicherungskopie des aktuell verwendeten Benutzerprofils zur Wiederherstellung nach Profilverlust.

________________________________________

Benutzerprofil wiederherstellen

Im Falle von Profilverlust ist es zu empfehlen, eine Sicherungskopie des Profils wiederherzustellen. Dies geht am einfachsten wie folgt:

Dragon NaturallySpeaking starten, Benutzerverwaltung aufrufen, das entsprechende Profil markieren, dann "Erweitert > Wiederherstellen" anklicken.

Die Sicherungskopie für das Profil ("backup") von Dragon NaturallySpeaking wird dann als eigenständiges Profil wiederhergestellt und in der Liste der Profile angezeigt, mit dem selben Profilnamen, daran angehängt "-wiederhergestellt", und kann anschließend gestartet werden. Hierbei gehen jedoch alle zwischenzeitlich zugefügten Wörter und Befehle verloren.

________________________________________

Benutzerverwaltung

Die Benutzerverwaltung kann aufgerufen werden über das Menü "NaturallySpeaking > Benutzer verwalten...", oder direkt mittels Sprachbefehl "Benutzer verwalten". Als weiterer Sprachbefehl steht auch "Benutzer" zur Verfügung, nach dessen Aufruf unten rechts in der Task-Leiste ein Fenster erscheint, in dem alle Benutzerprofile aufgelistet sind und wo direkt zwischen den Profilen gewechselt werden kann.

Für das Schließen und Öffnen von Benutzerprofilen stehen ansonsten die dafür vorgesehenen Befehle direkt nach Öffnen des Menüs "NaturallySpeaking" zur Verfügung, ebenso die Speichern-Funktion, die ansonsten standardmäßig beim Herunterfahren im Falle von am Profil vorgenommenen Änderungen aktiviert wird.

Im Fenster der Benutzerverwaltung selbst werden alle bestehenden Profile aufgelistet. Alle Aktionen, die sich unmittelbar auf das Benutzerprofil beziehen, werden hier ausgeführt. Dies sind:

• Umbenennen oder Löschen eines Profils (jedoch nur möglich, wenn das Profil nicht geladen ist);
• Einsehen der Eigenschaften;
• Anlage eines neuen Profils;
• Durchführung der Profilsicherung, über "Erweitert";
• Wiederherstellung der Profilsicherung, über "Erweitert";
• Export bzw. Import eines Profils, über "Erweitert".

________________________________________

ctfom.exe - erweiterte Windows-Textdienste

Bei der Installation von Office-Programmen unter Windows XP wird der Dienst ctfmon.exe mit installiert und bei jedem Start des Betriebssystems automatisch aktiviert. Eingerichtet wurde dieser Dienst für die so genannten "Erweiterten Windows-Textdienste" zur Einbindung von Benutzereingaben alternativ zu Tastatur und Maus, also bei Verwendung von Tablett-PCs beispielsweise. Ab dem Betriebssystem Vista wird diese Datei nicht mehr installiert.

Weil aber die Spracherkennungssoftware unmittelbar auf diese Schnittstellen zugreift, um den diktierten Text in die Anwendungen einzufügen, kommt es bei aktivierter Funktion dieses Dienstes immer wieder zu Konflikten, bis hin zu völliger Störung der Kommunikation mit den Anwendungen. Es ist daher unbedingt zu empfehlen, ihn zu deaktivieren, wenn er nicht unbedingt benötigt wird. Auch ohne Einsatz von Spracherkennungssoftware ist aber anzumerken, dass der Dienst unnötige Ressourcen belegt, wodurch insbesondere langsamere Rechnersysteme ausgebremst werden können.

Die dauerhafte, sitzungsübergreifende Deaktivierung von ctfmon.exe über das Betriebssystem ist kompliziert und unsicher. Innerhalb von Dragon NaturallySpeaking (ab Version 10) steht hierfür jedoch eine einfache und wirksame Option zur Verfügung.

In den Administrativen Einstellungen in der Registerkarte "Weitere Einstellungen" muss nur der Haken unten im Fenster bei "Erweiterte Windows-Textdienste deaktivieren" gesetzt werden, der Dienst ist dann dauerhaft inaktiv.

________________________________________

Diktierfenster

Das Diktierfenster wird gestartet über das Menü der Dragon-Leiste "Extras > Diktierfenster..." oder mittels Sprachbefehl "Diktierfenster anzeigen".

Seine Verwendung bietet sich überall dort an, wo das Diktat von Text nicht oder nur eingeschränkt möglich ist, also bei Anwendungen, die nicht Select & Say-fähig sind.

Der einzugebende Text wird dabei zunächst im Diktierfenster diktiert, wobei hier alle Diktier- und Navigationsbefehle, also auch Zeilen- und Absatzschaltungen, jedoch keine Formatierungen zur Verfügung stehen, mittels Auslösen der Funktion "Übertragung" wird der Text aus dem Diktierfenster an die Stelle der Anwendung eingefügt, wo sich dort der Cursor befindet. Das Diktierfenster ist anschließend leer.

Im Diktierfenster selbst können noch verschiedene Einstellungen vorgenommen werden, etwa die Schriftgröße des hier angezeigten Texts (hat keine Auswirkung auf die Erscheinungsweise des Textes in der Anwendung), oder ob der Text nach Übertragung in der Zwischenablage beibehalten werden soll (zu empfehlen für den Fall, dass der Text bei der Übertragung nicht richtig oder an der richtigen Stelle eingefügt worden ist, so dass der Vorgang in der Anwendung rückgängig gemacht werden muss).

________________________________________

Diktierquellen

Jedes Benutzerprofil muss über mindestens eine Diktierquelle verfügen, die Art der Diktierquelle (Mikrofon an der Soundkarte angeschlossen, USB-Mikrofon, digitales Diktiergerät bzw. Sounddateien im WAV-Format usw.) wird bereits bei der Anlage des Benutzerprofils ausgewählt. Sofern die "Extras" in der Dragon-Leiste angezeigt werden und die Leiste am oberen oder unteren Bildschirmrand verankert ist, wird die Art der Diktierquelle hinter dem Namen des Benutzerprofils in der unteren Zeile der Leiste eingeblendet.

Einem Benutzerprofil können jedoch auch mehrere Diktierquellen (also mehrere Arten von Diktierquellen) zugeordnet werden, so dass ein und dasselbe Benutzerprofil beispielsweise von einem Mikrofon oder wahlweise von einem Diktiergerät (also von damit aufgezeichneten Diktaten als Sounddateien) verwendet werden kann. Dies hat den Vorteil, dass nicht für jedes weitere Gerät ein eigenes Profil erstellt werden muss, wodurch zwangsläufig Inkongruenz zwischen den Profilen entstehen würde.

Eine neue Diktierquelle für ein Benutzerprofil wird angelegt über den Dialog "Benutzer öffnen" (über das Menü "NaturallySpeaking" oder bereits beim Programmstart). In diesem Dialogfeld befindet sich eine Schaltfläche namens "Quelle", dahinter findet man die Schalter "Neu" bzw. "Löschen".

Bei der Anlage einer neuen Diktierquelle muss diese zunächst ausgewählt werden, genauso wie bei der Anlage des Benutzerprofils, bereits vorhandene Quellen sind dann jedoch ausgegraut und können somit nicht mehr hinzugefügt werden. Anschließend wird der Audio-Assistent ausgeführt und die Diktierquelle kann dann verwendet werden.

In der Liste der Benutzerprofile erscheint die zusätzliche Diktierquelle dann als scheinbar eigenes Benutzerprofil. Um eine Diktierquelle zu löschen, kann die bereits oben erwähnte Schaltfläche hinter "Quelle" verwendet werden.

________________________________________

Diktion

Wir definieren Diktion als die Art und Weise, wie diktiert wird. Genauer verstehen wir darunter Artikulation und Phrasierung, weil diese für die Spracherkennung relevant sind.

Einen weiteren Bestandteil natürlicher Diktion stellt die Intonation dar, worunter Satzmelodie und Emphase zu verstehen sind. Intonation ist aber für die Spracherkennung zu vernachlässigen, von Vorteil ist es sogar, wenn eher monoton gesprochen wird, dafür aber möglichst klar und deutlich und in zusammenhängenden Sätzen oder zumindest Phrasen.

________________________________________

DRA-Dateien

________________________________________
Dragon-Leiste

________________________________________
DragonPad

________________________________________
Einstellungen und Optionen

________________________________________
Erkennungsansicht

________________________________________
Erkennungsfehler

________________________________________
Erkennungsfenster

________________________________________
Erkennungsgenauigkeit

________________________________________
Export - Vokabular

________________________________________
Export - Wörter

________________________________________
Formatierung

________________________________________
Geschriebene/gesprochene Form

________________________________________
Korrekturmenü

________________________________________
Lexikon, Vokabular, Wortschatz

________________________________________
Modelle

________________________________________
Modelloptimierung

________________________________________

N-Gramme

N-Gramme sind die dem Sprachmodell zugrunde liegenden Algorithmen, hierbei handelt es sich um Rechenmodelle zur Ermittlung statistischer Verteilungswahrscheinlichkeiten nach dem sog. "Hidden-Markov-Model" auf der Grundlage des zuvor analysierten Datenmaterials.

Die Uni-Gramme enthalten die Daten der Wahrscheinlichkeiten einzelner Wörter ohne Kontext, das Wort "wird" dürfte häufiger verwendet werden als "Wirt", beide klingen aber absolut identisch. Das Programm wird sich also eher für "wird" entscheiden, wenn das Wort isoliert gesprochen wird.

Die Bi-Gramme betrachten den Kontext von Wortpaaren, das bedeutet, wenn drei Wörter zusammenhängend gesprochen werden, werden die möglichen Kontexte des mittleren Wortes jeweils im Paar mit dem vorhergenden und dem folgenden Wort betrachtet und ausgewertet. Die daraus errechnete Wahrscheinlichkeit ist somit schon wesentlich höher als die des Uni-Gramms.

Inzwischen sind die Algorithmen des Sprachmodells so weit ausgebaut, dass die Berechnung unter Anwendung von Quad-Grammen möglich ist, das bedeutet, für jedes Wort innerhalb einer zusammenhängenden Äußerung können bis zu vier Wörter davor und dahinter in die Kontextanalyse mit einbezogen werden. Die Quad-Gramme kommen daher aber auch erst zur Anwendung, wenn mindestens neun Wörter zusammenhängend diktiert werden, in diesem Fall für das mittlere Wort, für alles andere werden (absteigend) Tri-Gramme, Bi-Gramme oder schlicht Uni-Gramme angewandt.

Es ist daher von Vorteil für die Erkennungsleistung, wenn möglichst in zusammenhängenden Äußerungen (ganzen Sätzen) diktiert wird, siehe auch Phrasierung.

________________________________________
(Wort-)Phrasen

________________________________________

Phrasierung

Phrasierung definieren wir, neben Artikulation, als einen Teil der Diktion. Unter Phrasierung verstehen wir die Formulierung des zusammenhängenden Redeflusses beim Diktat, dass also möglichst ganze Sätze, oder Halbsätze (von Satzzeichen zu Satzzeichen), zumindest aber zusammenhängende Phrasen diktiert werden. Die kontinuierliche Phrasierung ist von entscheidender Bedeutung für die Erkennungsgenauigkeit, bedingt durch die Funktionsweise der N-Gramme.

________________________________________
Profilverlust

________________________________________
Select&Say

________________________________________
Sprachmodell (linguistisches Modell)

________________________________________
Training

________________________________________
Vokabulareditor

________________________________________
Worteigenschaften

_______________________________________

Dragon Professional 16 auf Windows 10 Pro und Windows 11
SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo)
HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD

Anwenderforum für die Dragon-Spracherkennung

Bitte geben Sie einen Grund für die Verwarnung an