Unter "Spracherkennung versus Schreibkraft" wurden die Grenzen der Software bereits angesprochen, jedoch ist dieses Thema für die effiziente Handhabung des Programms und damit eine vertiefte Erörterung mehr als bedeutungsvoll genug.
Die Software kann und wird nicht fehlerfrei schreiben, was nicht im aktiven Vokabular enthalten ist, entweder ursprünglich oder hinzugefügt![*1] Da helfen auch perfektes Artikulieren, Modelloptimierung, zusätzliches Training, die Analyse des Schreibstils... nichts.
Dieses Vokabular umfasst 150.000 Wörter (plus benutzerdefinierte), wovon die meisten mit mehreren Formen vertreten sind, so dass geschätzt nur 50.000 verschiedene Wörter enthalten sind.
Das ist eher wenig. Noch wesentlicher aber die Berücksichtigung der Formen, die zum Einzelwort zur Verfügung gestellt werden, denn das ist meist nur ein Bruchteil derjenigen, die es jeweils gibt.
Beispiele:
Drin sind lallen und lallt, aber sonst zu diesem Wort nichts. Das heißt, das Diktat von lalle, lallst, lallende/n, gelallt/e/n...[*2] führt zwangsläufig zu Fehlern.
Viele Varianten dagegen bei denken; denke, denkst, denkt, dachte, dachtest, dachten, denkend/e/n, gedacht/e/n. Nicht enthalten ist dachtet, denkendem und gedachtem.
Bei ficken nur der Infinitiv, kein ficke, fickst, fickt, fickte, gefickt.
Sehr komfortabel die Ausstattung bei länger, längere, längeres, längeren und längerem; alles drin. Aber bei kürzer fehlt mit kürzerem das Pendant.
Umgekehrt kommt dagegen "lang" im Superlativ zu kurz: kürzestem ist enthalten, aber kein längstem.
Nicht komplett auch der Genitiv: Tisches, Glases, Betrugs und Betruges (sogar zwei Formen!) und Stempels ist drin, aber nicht Tuches, Schwanzes. Moskaus und Münchens wird bereitgestellt, aber nicht Starnbergs, Oberhausens und Hunzikers, obschon in der Grundform alles drin.
Getüncht, getünchte, getünchten, getünchtes ist drin, nicht aber getünchter, obwohl sich dieses Wort sogar in den Trainingsgeschichten findet, wie z.B. auch stemmende, und mit diesen Texten suggeriert der Softwarehersteller eine tatsächlich nicht mögliche Ausdrucksqualität.
Summa summarum stellt der gelieferte Wortschatz eine in Relation zu seiner Größe kaum zu kritisierende Auswahl aus dem Repertoire der deutschen Sprache dar, aber eben doch nur eine Auswahl.
Für mich habe ich danach Diktatregeln bezüglich der Wortwahl aufgestellt:
Keine Adjektive oder Partizipien mit -m am Ende.[/*]
Kein Imperfekt, nur Perfekt.[/*]
Konjunktiv nur über "würde".[/*]
Verben tunlichst in der dritten Person Singular oder im Infinitiv. Ich-Form vermeiden.[/*]
Partizip Präsens allenfalls bei absoluten Alltagswörtern wagen.[/*]
Restriktiver Gebrauch auch des Partizip Perfekt, aber weniger als des Präsens.[/*]
Komparativ wie Partizip Präsens und Superlativ wie Partizip Perfekt.[/*]
Standardwörter bevorzugen (und gewünschte/notwendige andere ins Vokabular aufnehmen[*3]).[/*]
Auch bei Substantiven die Grundform (Nominativ) bevorzugen; bereits der Genitiv birgt Fehlergefahren.[/*]
Texte abfassen, als wären sie für die Bild-Zeitung, denn größer ist der Wortschatz der Software kaum.[/*]
Die in der Werbung genannte Erkennungsgenauigkeit von fast 100 % ist zwar realistisch, aber ausschließlich, soweit Wörter und Wortformen verwendet werden, die im Vokabular enthalten sind. Andernfalls bricht sie dramatisch und frustrierend ein.
Auf die Qualität des Diktats komme es an, wird immer herausgestrichen. Hinzuzufügen ist, dass diese bei Verwendung von DNS mehr noch darin besteht, dass der Software entsprechend formuliert wird, wobei es gerade dem Anfänger einiges an zusätzlicher Konzentration abverlangt, die Möglichkeiten nicht zu überschreiten und trotzdem noch ordentlich zu äußern, was eigentlich gesagt werden soll.
"Dragon zu sprechen"[*4] ist der beste Rat, den ich zu dieser Software nach mehr als 5000 h des Gebrauchs geben kann. Geprüft werden kann er, indem beim Auftreten von Fehlern im Vokabular nachgesehen wird, ob das Wort/die Wortform enthalten ist und nach "streich das" unter Verwendung des Vokabularbestands neu diktiert wird. Das sollte dann klappen, wenn sonst nichts im Argen liegt.
Die meist kommerziell motivierten Propagandisten, die von den engen Grenzen des Produkts und seiner herben Gewöhnungsbedürftigkeit nichts wissen wollen, seien vertröstet, dass die Hardwarefortschritte dem Unternehmen Nuance gewiss Veranlassung sein werden, die Software auch künftig zu ertüchtigen, sei es durch Ausweitung des Vokabulars oder Implementierung einer (hoffentlich schaltbaren) Wortformen-Ergänzungsfunktion.
Zu vorstehenden Fakten noch mein kleiner persönlicher Aberglaube, dass bereits nach wenigen nicht erkannten und dann korrigierten Wörtern der Drachen derart verunsichert ist, dass er für den Rest des Tages zu gewohnter Leistung nicht mehr in der Lage ist. Ich trage daher das Sensibelchen nicht nur auf Händen, sondern auf der Zunge.
Fußnoten: [*1] oder durch Kompositabildung/Verbindungsbefehle erstellt wurde. [*2] Kursives ist nur durch manuelles Tippen oder Korrektur produzierbar. [*3] Was dann aber mit allen benötigten Formen dieses Worts geschehen sollte. [*4] Quelle des Gags: http://www.nuance.de/dragonstories/
Vielen Dank für dieses Referat, welches zweifellos geeignet ist, ein sehr interessantes Thema zu behandeln. Vorab aber bemerkt, dass einige der hier genannten Beispiele nicht in allen Formen im Vokabular sind, habe ich bisher noch nie als Manko empfunden, insbesondere nicht bei Wörtern wie "lallen" oder bei dem Wort mit dem F. am Anfang.
Wenn man sich mit den Grenzen der Spracherkennung näher befassen will, sollte man sich zunächst einmal Gedanken über die Unbegrenztzeit der Sprache machen. Dazu erst einmal ein paar Fakten und Zahlen.
Der deutsche Wortschatz umfasst, je nach Betrachtungsweise, zwischen 350.000 und 10 Millionen Wörter. Bei Sprechern unterscheidet man grundsätzlich zwischen einem aktiven und einem passiven Wortschatz, Untersuchungen zufolge verfügen gebildete Gymnasiasten etwa über 15.000 Wörter im aktiven Wortschatz, die meisten Wörter sind nachweisbar verwendet worden mal wieder bei Goethe, das Wörterbuch zu seinen Werken umfasst etwa 90.000 Einträge. Sogar Thomas Mann brachte es auf deutlich weniger, meines Wissens etwa 60.000, und ich nehme an, das hat ihm schwer zu schaffen gemacht
Bei all diesen Zahlen sind jedoch immer nur Einträge in der jeweiligen Grundform berücksichtigt, nimmt man die flektierten Formen noch dazu, müssen die Zahlen entsprechend vervielfacht werden. Noch gar nicht darin eingerechnet ist ein weiteres, für das Deutsche zumindest wesentliches Wachstumspotential, nämlich die freie Wortbildung, wovon die Kompositabildung nur ein Teil ist. Darin erst zeigt sich die wahre kreative Kraft der Sprachen, aus endlichen Mitteln einen unendlichen Gebrauch zu machen (Wilhelm von Humboldt, leicht abgewandelt).
Demgegenüber haben wiederum Untersuchungen gezeigt, was insbesondere für den Fremdsprachenunterricht Wirkung zeigte, dass bereits mit einem relativ kleinen Bestand an Basisvokabular ein großer Teil von Standardtexten abgedeckt ist, so geht man davon aus, dass mit etwa 1000 Wörtern etwa 85 % der durchschnittlichen Texte verstanden werden kann, was mit der Häufigkeit des Auftretens dieser Wörter zusammenhängt. Dies hängt natürlich in erster Linie auch davon ab, welche Texte zu diesem Standard-Korpus gezählt werden.
Und an dieser Stelle nähern wir uns der Drachen-Problematik. Wie schon ausgeführt wurde, die Spracherkennung kann nur Wörter erkennen, die sie schon kennt, in dem Sinne also nur wieder-erkennen. Die Fähigkeiten eines, wie es in der Linguistik genannt wird, kompetenten Sprechers einer natürlichen Sprache, aus der Kenntnis einer beherrschbaren Anzahl von Elementen und Regeln, nach denen diese Elemente miteinander verbunden werden können, auch bis dahin unbekannte Einheiten zu erschließen, geht der Spracherkennung völlig ab.
Man mag nun darüber diskutieren, ob der Umfang und die Zusammenstellung des Vokabulars in Dragon NaturallySpeaking zweckmäßig ist oder nicht. Was den Umfang angeht, nach heutigem Stand mit bis zu 200.000 Einträgen im aktiven Vokabular hat sich die Technik schon sehr weit fortentwickelt gegenüber ihren Anfängen, als unter einem "großen" Vokabular ein Wortschatz mit einigen 10.000 Einträgen verstanden wurde.
Typisch aber ist, und das wurde ja schon festgestellt, dass bei den Verbformen in der Regel der Infinitiv und die 3. Person gegenüber der 1. und der 2. Person Priorität haben. Das hängt wohl damit zusammen, vermute ich, dass der zu Grunde gelegte Textkorpus, aus dem das Datenmaterial gewonnen wurde, wenig dialogisch, dafür aber mehr im Berichtsform ausgerichtet ist. Und von der Zusammenstellung der Texte hängt letztendlich auch der Wortbestand im Vokabular ab, weil es hierbei einfach um statistische Häufigkeit geht, und nicht um Geschmacksfragen, und ich würde immerhin ausschließen, dass irgendein Gremium darüber tagte, welche Wörter aufgenommen werden sollen oder nicht. Dasselbe gilt dann auch sinngemäß für die anderen hier aufgeführten Beispiele, etwa die Genitiv-Formen, die ohnehin irgendwann vielleicht ausgestorben sein werden, und alles Weitere, was hier sehr detailliert und zutreffend vorgebracht worden ist.
Jedoch, die Problematik dabei sehe ich nicht, habe ich doch die Möglichkeit, mir mein eigenes Vokabular so anzupassen, wie ich es benötige, auch wenn dies mit, zugegebenermaßen, ein wenig Aufwand verbunden ist. Womit allerdings nicht gesagt werden soll, dass das Ende der Entwicklung damit schon erreicht ist.
Viele Grüße Rüdiger Wilke
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Zitat von R.WilkeDasselbe gilt dann auch sinngemäß für die anderen hier aufgeführten Beispiele, etwa die Genitiv-Formen, die ohnehin irgendwann vielleicht ausgestorben sein werden
Hallo Rüdiger,
das klingt ja ziemlich depressiv - und das kurz vor Ostern. Umso wichtiger ist es, dass die Spracherkennungsgemeinde die Genitivformen in ihren Drachen-Wortschatz hinein rettet. Der Dativ soll nicht länger dem Genitiv sein Tod sein! Sprachverliebte, hört die Signale ...
Frohe Ostern und vielen Dank für Deine Mühe mit dem Forum!
Hans
DPI 15 auf Windows 10 Professional (64-bit) SpeechMike Premium. Intel i7 Core 4x2.67 GHz, 6 GB RAM
Auch wenn ich mich wie Dioskur (hübsches Alias btw, hieß nicht auch mal ein Gegenpapst so - und was sagt uns das über die Rollenverteilung im Forum ) schon über manche fehlende Flexion geärgert habe, beobachte ich seit ca. Version 8 der Software an mir, dass ich meine sprachlichen Gewohnheiten immer weniger an die Software anpasse, sondern umgekehrt - einfach, weil auch seltene, ähnlich wie andere klingende Wortformen besser erkannt werden (auch die -m-Fälle übrigens). Gnadenlos korrigiere ich jeden fehlenden Genitiv oder 1. Person Singular und bleibe (verhalten) optimistisch!
In allerbestem Sinne (okay, einmal korrigiert, das richtige Wort war aber in der Auswahl gleich an 1. Stelle )
Marius Raabe
Dragon NaturallySpeaking 11.5 Legal Windows 7 Prof. 64-Bit, Office 2010, Jarte Plus Philips SpeechMike II Pro Plus, SpeechMike III, SpeechMike Air, PDCC 2.8 Intel Core2 Quad Q9550, 2,83 GHz, 2x6MB L-2, 8 GB RAM