Zitat von R.Wilke... und nun auch noch der Vollständigkeit halber das Ergebnis des Testes, wie viele Wörter in der Version 11 hinzugefügt werden können:
Grüße Rüdiger Wilke
Super, jetzt die spannende Anschlussfrage: Wie diktiert es sich mit einem Benutzerprofil, das so viele Vokabulareinträge hat? Kommt es zu einer relevanten Reduzierung von Erkennungsgenauigkeit oder Geschwindigkeit? Wobei dann gegebenenfalls zu differenzieren wäre nach "unter Verwendung nur der ursprünglichen Vokabulareinträge" und "unter Verwendung auch der hinzugefügten Einträge", denn es wäre völlig akzeptabel, wenn der Gebrauch der zusätzlichen Wortformen/Wörter Einbußen bringen würde.
Wie es scheint, könnte die Erfüllung meines sehnlichsten Wunsches an die Spracherkennung, Genitiv und Partizipien umfassender zur Verfügung zu haben, ein Stück näher gerückt sein.
Es freut mich zunächst zu hören, dass wir zumindest damit die Hoffnung auf die Erfüllung auch des sehnlichsten Wunsches von oguh ein wenig nähren können. Auf die Gefahr hin, sie sogleich wieder zunichte zu machen, wir in Wahrheit aber der endgültigen Klärung ungeachtet der Auswirkung auf die Erwartungshaltung nicht entgehen können, ist nach meinem Dafürhalten eine detaillierte Beschäftigung mit diesem Thema unbedingt vonnöten.
(1) Vorab, wodurch die neu erwachte Euphorie zunächst brutal gebremst wird, das Material, mit welchem ich die Tests durchgeführt habe, umfasst keinerlei deutsche Wortformen. Die Verwendungsfähigkeit eines solchermaßen aufbereiteten Profils kann daher damit nicht überprüft werden.
Zum Hintergrund und zur Erläuterung, und weil ich die Autorenschaft an dieser Stelle nicht unter den Tisch fallen lassen möchte, es handelt sich hierbei um Wortlisten, die DavidP. Vor etwa zwei Jahren einmal öffentlich zur Verfügung gestellt hatte, seinerzeit für die Durchführung der Tests in der Version 9, wovon ich bereits berichtet habe. Nach meiner Kenntnis handelt es sich hierbei um Wörter oder Wortformen aus dem Sanskrit, die Datei umfasst knapp 1 Million Textzeilen, ist jedoch in der vorliegenden Form problematisch und führt unweigerlich zu Fehlermeldungen, wenn sie wie vorhanden für die Adaption verwendet wird, was meine Testreihen zunächst einigermaßen erschwert hat.
Nach diversen Umbauarbeiten daran, anlässlich der aktuellen Diskussion, habe ich sie schließlich auf etwa 300.000 Zeilen gekürzt und in eine Form gebracht, die das Programm nicht mehr zum Abstürzen bringt nach den bisherigen Testläufen. Allerdings dauern diese Tests dann immer noch mehr als eine Stunde, gefühlt, ich habe nicht auf die Uhr gesehen, es könnte noch länger gewesen sein.
Der einzige Zweck des hierbei verwendeten Materials besteht darin, das Benutzerprofil mit unbekannten Wortformen zu konfrontieren und auf diesem Weg die Grenze der Aufnahmefähigkeit neuer Wortformen zu bestimmen.
(2) Hoffnung besteht jedoch wiederum, meines Erachtens, nachdem nun bekannt ist, wo die Grenze des Potenzials liegt, und weitere Versuche in dieser Richtung erscheinen mir zumindest sinnvoll und wichtig. Was dabei herauskommen würde, kann ich selbstverständlich nicht beurteilen, alles ist möglich, ein Restrisiko besteht bekanntermaßen immer. Damit möchte ich nun zum praktischen Teil kommen, nach soviel Vorrede.
(3) Das Desiderat im deutschen Profil besteht gemäß oguh, hier als Stellvertreter benannt, darin, dass im praktischen Einsatz zu viel flektierte Wortformen, insbesondere bei den Partizipien und Genitivformen, nachgeholt werden müssen, weil sie nicht im aktiven Vokabular enthalten sind. Soweit mir bekannt, sind sie aber in einer Vielzahl bereits im Hintergrundvokabular erfasst. Zum Hintergrundvokabular ist zu sagen, dass niemand direkt dort hinein schauen kann – abgesehen von den Entwicklern – und letztendlich auch nicht sicher bekannt ist, wie viele Einträge es enthält, Schätzungen zufolge kann man aber von etwa 350.000 ausgehen.
Um Wörter aus dem Hintergrundvokabular zu aktivieren gibt es zwei Methoden, erstens Korrektur, zweitens Suche nach unbekannten Wörtern mittels Analyse von Listen oder Texten.
Wenn sie erst einmal im Vokabular aktiviert sind, bleiben sie dort, sofern sie nicht aktiv gelöscht werden. Ein solchermaßen erweitertes Vokabular könnte mit verschiedenen Methoden konserviert werden, dazu eventuell mehr an anderer Stelle oder später hier.
Weitere benötigte Formen, die nicht bereits im Hintergrundvokabular erfasst sind, könnten jedoch als benutzerdefinierte Wörter in ein solches Vokabular eingehen.
(4) Und nun endlich zur Preisfrage: was kann man tun, um dorthin zu gelangen? – Wenn jemand Listen mit den deutschen Wortformen irgendwo besorgen kann, ist die Sache recht einfach, wie oben skizziert. Ansonsten bliebe noch der Weg, entsprechend umfangreiche Texte in digitaler Form zu besorgen und diese analysieren zu lassen und die darin vorkommenden im Hintergrundvokabular erfassten sowie die unbekannten Wörter zu extrahieren.
Dass dies mit einer Menge Arbeit verbunden ist, liegt auf der Hand und ist überflüssig zu erwähnen. Andererseits bestehen jedoch keine Alternativen dazu, wenn man dieses Ziel ernsthaft verfolgen will.
Grüße Rüdiger Wilke
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Gibt es eine Möglichkeit, das aktive Vokabular in eine Textdatei zu konvertieren? Dann könnten die fehlenden Wortendungen dort manuell eingefügt werden, um anschließend die Datei dem Drachen zur Suche nach unbekannten Wörtern zu übergeben.
Es wäre zwar eine mordsmäßige Arbeit zehntausende von Endungen zu ergänzen, aber eine hier jobbende Studentin (Lehramt, Nebenfach Germanistik) würde das zu einem vertretbaren Entgelt übernehmen.
Sollte die erste Frage positiv zu beantworten sein, bliebe immer noch offen, wie sich ein Drachen mit 300.000 Vokabulareintragungen im Alltag verhält. Wenn ich Ihre Ziffer 1 richtig verstanden habe, haben Sie den Volumentest mit einer Art Häckselgut vorgenommen. Das kann man dann zwar nicht diktieren, aber es müsste doch der Versuch möglich sein, ob man DNS noch wie zuvor verwenden kann? Mir geht es darum, nicht 500 bis 1000 € auszugeben, das ist der derzeit angesprochene Rahmen, um dann einen überforderten Drachen zu haben.
Ein dritter Aspekt kommt dazu. Ich erinnere Gerüchte, der Drachen verschiebe Eintragungen aus dem aktiven Vokabular in das Hintergrundlexikon, wenn sie längere Zeit nicht gebraucht wurden. Wenn etwas dran sein sollte, dass der Drachen um sein vokabularmäßiges Abspecken bemüht ist, könnte das ein aufgepepptes Vokabular wieder zunichte machen. Wissen Sie dazu etwas?
Germanst(in) ist die allerbeste Grundlage dafür, keine Frage, ich bin (oder war) auch so einen, in einem früheren Leben. -
Es ist nicht möglich, die Wörter aus dem Lexikon zu holen, was nicht ganz stimmt, man kann (theoretisch) ein Skript bauen, das es macht. Ich habe so eins für die Wörter mit den grünen Sternen (die aus dem Hintergrundvokabular aktivierten), das könnte man auch umbauen, aber es würde Tage lang oder länger laufen müssen. Für ca. 800 Wörter mit grünem Stern werden etwa 10 Minuten, ich weiß es nicht mehr ganz genau, benötigt. Rechnen Sie das mal auf 150.000 Wörter hoch, ich bin nicht so gut im Kopfrechnen.
Es gibt bekanntlich noch Programmier-Techniken, die auf das Lexikon abzielen, und ich bastele in meiner Werkstatt hinter der Garage auch so vor mich hin, aber ohne erkennbaren Fortschritt.
Aber, bei der Vorgehensweise mit der Germanistin könnten die wirklich relevanten Wörter, denn nicht alle im Lexikon müssten ganz oder teilweise aufgefüllt werden, wenn ich es richtig sehe, auch sogleich per Hand ermittelt werden, insofern halte ich programmatische Hilfsmittel nicht unbedingt für erforderlich.
Was diese Theorie vom Verschieben der Wörter angeht, die mir auch irgendwie bekannt ist, das ist alles ein bisschen unklar nach meiner Kenntnis. Dazu, und über den praktischen Nutzen eines solchen Projektes zu urteilen, fehlt nach meiner Einschätzung derzeit jede Grundlage.
Bedingung aber ist, dass man erst einmal Material in die Hände bekommt, um zu testen. Man kann natürlich auch einfach mal einen Test mit einem Profil ausführen, welches um einen Bestand wie beim Crash-Test erweitert wurde, auch wenn die dabei gefundenen Wortformen keine Verwendung finden, nur um zu sehen, ob er überhaupt noch läuft.
Mir selbst ist das alles nicht so sehr ein Anliegen, ehrlich gesagt, aber ich sende Ihnen mal die Datei per Mail, mit der man das Profil "zum Überlaufen" bringen kann, wenn Sie es testen möchten. Dazu einfach ein neues Profil anlegen und die Datei für die Aufnahme neuer Wörter aus Listen verwenden, und viel Zeit dafür einplanen und nicht nervös werden, wenn man meint, er macht nichts mehr.
Bitte berichten Sie doch weiter, so oder so.
Grüße, R. Wilke
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Herzlichen Dank für die Liste, ich werde nächste Woche einen mit diesem Ballast versehenen Drachen verwenden, jetzt ist Feierabend. Was den Export des aktiven Vokabulars anbelangt, würden für 150.000 Wörter 31,25 Stunden bei einer Geschwindigkeit von 800 Wörtern pro 10 min beansprucht werden, also kein absurder Zeitraum. Eine solche Liste hätte den Vorteil, dass "nur" noch die gewünschten Endungen ergänzt werden müssten, was gegenüber einem Abtippen des Vokabulars natürlich ungleich schneller ginge. Darauf basiert auch der Honorarwunsch unserer Studentin. Aber warten wir erstmal ab, was der Ballasttest ergibt. Schönes Wochenende
Zitat von Marius RaabeIch selbst füge in mein Vokabular seit Jahr und Tag jede vermisste Form hinzu, auch wenn das zunächst nervt, zugegeben, freue ich mich wie ein kleines Eichhörnchen über jede neue Wort-Nuss, die ich mir auf diese Weise als Vorrat anlege (oder sollte man besser vom Wörter-Hamstern sprechen?). Alles in allem habe ich meinem Vokabular so etwa 24.000 Wörter hinzugefügt (aktuelle Zählung, nachdem ich in Version 11 allerdings auch schon einiges wieder gelöscht habe) und komme mit Texten unterschiedlicher Wissensgebiete und Abstraktionshöhe sehr gut zurecht.
Ich glaube, in der Version 11 sind viele neue Flexionen ins Vokabular aufgenommen worden, viele auch ins Hintergrundvokabular.
Mein persönlicher Hauptverdächtiger für das Problem ist daher gar nicht so sehr das Vokabular, sondern eher das Sprachmodell. Verdachtsmoment: ziemlich oft wird bei der Korrektur einer fehlerhaft erkannten Flexion die richtige Variante im Buchstabierfenster angezeigt oder, wenn nicht, jedenfalls nach der 1. Korrektur im Vokabular mit dem kleinen grünen Pfeil (für aus dem Hintergrundlexikon) aufgeführt. Wahrscheinlich haben bei der Zuordnung zum aktiven Vokabular und bei der Bildung des Sprachmodells nicht so sehr anspruchsvolle Textepate gestanden, die von Partizipien und insbesondere von Partizipialattributen im Dativ nur so wimmeln, was im Sinne einer Rückkopplungsreaktion Anlass für das von Ihnen schon manchmal gesungene Klagelied über den spracherkennungsbedingten Verfall der sprachlichen Sitten sein könnte. Ähnliches gilt für den Konjunktiv II, so wird das Kleinod „gölte“ im Hintergrundlexikon verzeichnet und nach der 1. Korrektur ganz gut erkannt, wenn im Zusammenhang diktiert (in der Alleinstellung allerdings wird öfter mal Goethe draus – was unter bildungsbürgerlichen Gesichtspunkten ja prinzipiell nicht schlecht ist, aber eben leider falsch)
Bislang bin ich bei alledem ganz froh, dass der Hersteller bisher nicht versucht, Flexionen außerhalb des Vokabulars automatisch zu generieren. Die Erfahrungen mit der automatischen Kompositabildung sind insoweit nicht sehr ermutigend.
Interessanterweise gibt es seit der Version 10 wohl in diesem Zusammenhang eine lange Reihe von scheinbaren Genitiv-Formen im Vokabular, die es sprachlich gar nicht gibt, z. B. „Verfügungs“, „Förderungs“ und dergleichen. Diese tauchen leider bei der Erkennung des Nominativs häufiger mal fälschlicherweise auf. Ich vermute, diese Formen tragen kein Genitiv-s, sondern ein Fugen-s für die automatische Kompositabildung.
Hallo Herr Raabe, schön, wenn bei Ihnen Vokabularlücken zu Glücksgefühlen führen, aber mir gibt das Sammeln roter Sterne nichts. Ich hätte es lieber von vornherein fehlerfreier. Dabei entschädigt mich auch nicht, dass häufig, da stimme ich zu, das zu korrigierende Wort "nur" aus dem Hintergrundlexikon hinzugefügt werden muss. Fehler bleibt Fehler.
Auch wenn die automatische Kompositabildung nicht voll befriedigt, ist sie besser als nichts und ich habe sie eingeschaltet. Weitere Automatismen dieser Art sind mithin wünschenswert, zum Beispiel bei der Genitiv- und Partizipbildung; abschaltbar selbstverständlich. Oder ein umfänglicher und direkter Zugriff auf das Hintergrundvokabular, denn es ist mehr eine Verarsche des Anwenders, wenn die Software nach einem korrigierten Fehler mittels grünem Pfeil zurückgibt "ich hab's aber gleich gewusst".
Ich habe amtsgerichtliche Urteile gesehen, die ohne Zweifel mit DNS verschriftlicht wurden, aber noch nie eines ab OLG aufwärts. Das mag daran liegen, dass hinter Richtern dieses Rangs gut besetzte Geschäftsstellen stehen, aber auch daran, dass die dortige Darstellungsweise nicht kompatibel mit dem derzeitigen DNS-Vokabular ist. Da wäre es beim Eichhörnchen schnell vorbei mit der Trieberfüllung, müsste es BGH-Urteile in das derzeitige DNS-Vokabular diktieren. Die Menge an roten Sternen und grünen Pfeilen würde zum Kollaps des Triebanspruchs führen. Während die meist eher eindimensionale Darstellungsweise hier durchaus dem Vokabular entspricht, trifft das für die komplexe und mehrdimensionale dort nicht mehr zu.
Auch in diesem Test http://www.itespresso.de/2010/09/21/drag...g-11-im-test/2/ werden die Grenzen des Vokabulars ersichtlich. Fachtexte und Geschäftsbriefe einerseits und saloppe Privattexte mit modischen Anglizismen und Slang-Ausdrücken andererseits wurden verwendet. Ergebnis nicht so, wie man sich das vorstellt.
Nicht zuletzt können wir die Dürftigkeit der werkseitigen Vokabularausstattung daraus ersehen, dass Dr. Michael Spehr in seiner FAZ-Rezension der Version 11 ein verdoppeltes Vokabular andichten glaubte zu müssen. Dabei handelt es sich um einen regelmäßig in der Technikbeilage der FAZ schreibenden Journalisten, der dort ebenfalls regelmäßig ein hohes Loblied auf DNS singt, auch wenn er es entgegen eigener Einlassung gar nicht so oft nutzen dürfte, denn sonst könnte er nicht ebenfalls in der FAZ zwischendurch eine hochpreisige Tastatur empfehlen, weil sie seinen durch ständiges Tippen geschundenen Journalistenfingern ach so gut tue.
Als Konsens zwischen Ihnen und mir kann man vielleicht ausformulieren, dass das derzeit von Nuance mitgelieferte Vokabular nicht in vollem Umfang bedarfsgerecht ist, denn dass Ihnen das Wörter-Hamstern Spaß macht, nehme ich Ihnen nicht ab. Einig dürften wir uns auch darin sein, dass es unmöglich ist, ein allen Anforderungen entsprechendes Vokabular von vornherein zur Verfügung zu stellen. Man kann vielleicht das mitgelieferte Vokabular mit dem mitgelieferten Mikrofon vergleichen. So schlecht ist es gar nicht, aber richtig gut auf keinen Fall.
Man kann auch davon ausgehen, dass ein mich happy machendes Vokabular bei Ihnen nicht den gleichen Effekt hätte. So müsste es denn vielfältige Zusatzvokabulare geben, zum Beispiel für jene, die ihr Latinum verwenden wollen (oder ist "ceterum censeo" in der Legalversion von Haus aus drin?), jene die modische Anglizismen verwenden oder die viel in der ich-Form diktieren oder solche wie mich, die auf Genitiv und Partizip Präsens überdurchschnittlich Wert legen usw. Sowieso kommen dann noch die Vokabulare mit Fachtermini dazu.
Diesen Anforderungen wird sich die Firma Nuance stellen müssen, will sie die Marktdurchdringung, wozu ihre Spracherkennungstechnologie an sich geeignet ist. Es wird nicht dabei bleiben können, dass der Hersteller zwar die Verwendung verschiedenster Mikrofone unterstützt, aber hinsichtlich des Vokabulars den Anwender auf das Sammeln roter Sterne und grüner Pfeile verweist.
Für den amerikanischen Hersteller einer multifunktionellen (Stichwort PC-Sprachsteuerung) und multilingualen Software mag es recht uninteressant sein, z. B. ein Vokabularappendix zum Preis von 3,90 € mit dem Arbeitstitel "Diktant hat ein Latinum" herauszubringen oder eines für 4,90 € zusätzlich mit dem Graecum oder eines "Deutscher Genitiv" für 29,90 €. Aber dann kann der Hersteller den Anwender nicht im Regen stehen lassen, sondern hat ihm Informationen zur Verfügung zu stellen, z. B. wie sehr er sein Vokabular ohne Einbußen bei Genauigkeit und Geschwindigkeit beladen kann, wie er dabei vorgehen soll, ob er nicht besser für die verschiedenen Anwendungsfälle (Geschäftsbrief vs. salopper Privattext, s. o.) verschiedene Benutzerprofile anlegen sollte und wie die Änderung von Worteigenschaften quer durch mehrere Benutzerprofile erfolgen kann .... Da wüsste ich noch viel aufzuzählen.
Aber all das ist nirgendwo dokumentiert und in dieser fehlenden Hilfestellung liegt das eigentliche Problem. Alles muss erst mühsam herausgefunden und -experimentiert werden. Verdrießlich und frustrierend für diejenigen, die sich von DNS Zeitersparnis erwarten und darin kein Hobby sehen, bzw. ein No-go für Interessenten.
Wenn ich die Diskussion hier im Forum um die nicht erfolgten Erweiterungen des Vokabulars in DNS 11 lese und dazu meine eigenen Erfahrungen nach einer halben Jahr Nutzung von DNS 10.1 hinzunehme, beschleicht mich die Vermutung, dass die Problematik nicht im Umfang des Vokabulars oder in irgendwelchen Kontexten liegt, sondern einfach in der Sprache begründet ist. Meines Erachtens werden sich die verschiedenen Sprachen, die es so auf der Welt gibt, auf verschiedene Art und Weise entwickelt haben. Daraus hat sich dann später jeweils eine Schreibweise abgeleitet, die heutzutage üblich in der jeweiligen Sprache ist. Meiner Meinung nach würde Spracherkennung wohl in Zukunft nur dann verbessert war sein, wenn entweder alle Diktanten in einer Sprache diktieren würden, was bei letztendlich in Betracht kommenden 6.000.000.000 Menschen auf der Erde eher unrealistisch ist, oder aber die Eigenheiten der jeweiligen Sprache mit dem Genitiv und den Großschreibungen bei Anreden mit entsprechenden Sprachmodellen hinterlegt werden, die dann keine einzelnen Einträge ins Vokabular benötigen.
Deswegen ist es zwar im Ergebnis sicherlich interessant, wie sich ein "volles Vokabular" in der Praxis verhalten wird. Aber mit so vielen Wörtern, wie wohl technisch scheinbar möglich, wird sich meiner Meinung nach beim derzeitigen Stand der Technik keine wesentliche Verbesserung erzielen lassen. Nach der Logik, die derzeit hinter der Spracherkennungssoftware liegt, wird eine Verbesserung meines Erachtens daran scheitern, dass die Zuordnung der akustischen Signale zu den einzelnen Einträgen ins Vokabular für das Programm sehr schwierig sein wird und eine genauere Erkennung nur möglich ist, wenn der entsprechende Schieberegler bei den Optionen auf genaueste Erkennung gestellt ist, wodurch dann seitens des Programms eine gezieltere Überprüfung möglich ist. Ansonsten wird das Programm wie bisher aus den am meisten benutzten Wörtern auswählen, egal wieviel Einträge letztendlich im Vokabular sind.
Grüße
A. Wagner
[Dragon Legal Anywhere mit SpeechMIke LFH 3510, Intel(R) Core(TM)I7-7500 CPU, 16 GB RAM, Windows 10 Pro. 64 Bit [/i]
Oguhs Philippika (im Vokabular enthalten) reizt zwar zu umfassender Stellungnahme, aber da scheint es mir – Stichwort Zeitersparnis – dann doch effektiver zu sein, die Zeit mit dem Hamstern von Partizipien und Genitiven zu verbringen (sei es automatisch oder manuell). Nur soviel: Dass der Einsatz der Spracherkennungssoftware in niedrigeren Instanzen des Gerichtswesens häufiger vorkommt, ist fürwahr nicht Einsichten des jeweiligen Justizministeriums oder Chef-Präsidenten (oder auch nur der einschlägigen „Fachhändler“ – erst letzte Woche erhielt ich einen Werbebrief des führenden Herstellers von Juristensoftware mit der Behauptung, in der Version Dragon 11 Legal sei das Vokabular nunmehr auf 300.000 Wörter verdoppelt worden ) in die Funktionsweise dieser Software oder Annahmen über die Graduierung der Komplexität der Urteilsgründe oder der zu behandelnden Sachverhalte geschuldet, sondern einzig und allein dem in den unteren Instanzen höheren Rationalisierungsdruck bzw. dem höheren Beharrungsvermögen und Lebensalter der entscheidenden Personen in den Obergerichten und Bundesgerichten. Ich kenne genug. Oft genug übrigens diktiere ich Passagen aus Urteilsgründen oberster Bundesgerichte (als Zitate) in meine Schriftsätze, das ist so problemlos wie bei anderen Prosatexten – kultursprachlich wertvolle, aber für eine statistische Technik wie die Spracherkennung heikle Wort-Exoten gibt es hier wie andernorts – und setzt kein juristisches Extra-Vokabular voraus. Wie schon mal berichtet, verwende ich stets das Vokabular „Allgemein“ – eben weil das Leben bunter ist als das spezialisierte Sprachmodell „Recht“. Aber vielleicht liegt das alles nur daran, dass Texte dieser Art eher von substantivierten Wörtern wimmeln als solchen in der Form des Partizip Präsens, Glück gehabt.
Dragon NaturallySpeaking 11.5 Legal Windows 7 Prof. 64-Bit, Office 2010, Jarte Plus Philips SpeechMike II Pro Plus, SpeechMike III, SpeechMike Air, PDCC 2.8 Intel Core2 Quad Q9550, 2,83 GHz, 2x6MB L-2, 8 GB RAM
Zitat von "a.wagner"Wenn ich die Diskussion hier im Forum um die nicht erfolgten Erweiterungen des Vokabulars in DNS 11 lese und dazu meine eigenen Erfahrungen nach einer halben Jahr Nutzung von DNS 10.1 hinzunehme, beschleicht mich die Vermutung, dass die Problematik nicht im Umfang des Vokabulars oder in irgendwelchen Kontexten liegt, sondern einfach in der Sprache begründet ist.
Hallo Herr Wagner,
ein wichtiger Aspekt, so ist es, aber ich möchte hinzufügen, es ist noch viel komplizierter. Gerne würde ich mal versuchen, es an einem Beispiel zu verdeutlichen, ganz unkonventionell. Wären Sie bereit zu einem Gedankenexperiment?
Stellen Sie sich vor, Sie wären an einem Projekt zur Entschlüsselung kürzlich erst entdeckter antiker Schriftrollen beteiligt. Ihre Aufgabe besteht darin, die dabei verwendeten Schriftgebilde ein- und zuzuordnen, nicht einmal, ihren Inhalt oder ihre Verwendung zu verstehen, dafür ist es noch zu früh. Nur sortieren, indem bereits Bekanntes wiedererkannt wird.
Die Problematik dabei besteht nun auf verschiedenen Ebenen des Materials. Zum einen hatten die Schreiber die Eigenart, sämtliche Gebilde einfach lückenlos hintereinander zu fügen, oder auch zwischendurch wahllos Pausen beim Schreiben einzulegen. Dann wiederum verfügte jeder Schreiber über eine ganz indivduelle und mehr oder weniger konsistente Schreibweise, manche schrieben klitzeklein, manche riesengroß, und andere wieder nicht nur beides abwechselnd, sondern auch so, als hätten sie ständig neue Symbole verwendet.
Die Forscher vor Ihnen haben aber schon herausgefunden, dass bestimmte Symbole immer wieder verwendet werden, wenn auch in sehr großer Zahl, und sie haben die am häufigsten vewendeten schon erfasst und, in allgemeingültige und leserliche Form gebracht, aufgeflistet. Sie haben ferner herausgefunden, dass die Symbole, so unterschiedlich sie auch sein mögen, allesamt aus einer bestimmten Anzahl von Einzelelementen zusammengesetzt sind, die immer wieder darin vorkommen, Striche, Punkte, Kreise, Rechtecke usw. Die Elemente, sagen wir mal es sind etwa 50 insgesamt, können kategorisiert werden, ebenso wie die Symbole, die aus ihnen zusammengesetzt sind, wenngleich sowohl die Symbole und ebenso die Elemente gleichermaßen bei jedem Erscheinen voneinander abweichen, aber um ein Symbol zu identifizieren ist es notwendig, die Elemente darin zu erkennen.
Bis jetzt hat man heraus gefunden, dass etwa 500.000 verschiedene Symbole in den Schriftrollen enthalten sind, irgendwo sind sie alle gelistet, und oft ist es so, dass bestimmte Symbole häufig mit anderen zusammen auftauchten, wodurch die Suche erleichtert werden kann. Aber, es wird noch verrückter, die Leute konnten offensichtlich weitere neue Symbole dadurch hervorbringen, dass sie bereits bestehende frei miteinander verbinden konnten, nicht ohne dass durch die Verbindung die Teilsymbole noch zusätzlich verändert wurden, aber dadurch ist die Gesamtzahl potenziell unbegrenzt.
So, nun stellen Sie sich das einmal vor, und bedenken Sie bitte, dass Spracherkennung vor einem ähnlichen, systematisch betrachtet aber im Grunde vor dem selben Problem steht.
Zur Auflösung betrachten Sie bitte, dass die Variabilität in der Schreibweise jener der Artikulation der Sprachlaute entspricht, jeder spricht anders, und niemand spricht jemals das selbe zweimal. Die Einzelelemente, aus denen die Symbole zusammen gesetzt sind, sind die Sprachlaute, die Symbole sind die Wörter. Alles wird aneinader gehängt und klingt niemals mit sich selbst identisch, physikalisch betrachtet, weist aber eine wohl geordnete Systematik auf, die bloßes Geräusch von Sprache unterscheidet - unter günstigen Bedingungen.
Menschliches Sprachvermögen, aktiv wie passiv, stellt eine ungeheure kulturelle Errungenschaft dar, die dabei wirkenden physiologischen und mentalen Prozesse können von Maschinen nicht repliziert werden, nicht in der Erzeugung, und schon gar nicht im Verstehen, die Sprache ist das Wertvollste, was Menschen je hervor gebracht haben.
Computer können - schon - Muster wieder erkennen, zum Beispiel in Handschriften, oder auch in gesprochener Sprache, nachdem diese aber zunächst einmal aus der Dimension der Zeit, in der sie erscheint, heraus gelöst in digitale Bilder (in den Dimensionen des Raums) umgewandelt wurde, also in einer Ebene, die umso weiter davon entfernt ist und somit dem eigentlichen Phänomen nicht im Entferntesten nahe kommt.
Computer können nicht mal zuhören, nur schauen.
Grüße Rüdiger Wilke
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Ein sehr schönes Gedankenexperiment, dass die Problematik der Spracherkennung schon gut beschreibt. Vorteil für die Programmierer ist allerdings, dass sie den Prozess der Umsetzung von Sprache in geschriebene Worte beim Menschen "abschauen" können. Dabei sehe ich allerdings die Problematik, dass diese Umsetzung von Sprache zu Sprache sehr unterschiedlich ist, weil ja schon die Regeln für das Sprechen in einer bestimmten Sprache unterschiedlich sind. Also wir haben da beispielsweise ein grammatikalisches Problem. Ich weiß nicht genau, wie viele Fälle es in der englischen Sprache gibt. In der deutschen Sprache sind es 4 Fälle, im Russischen beispielsweise 6 Fälle. Diese Problematik könnte man meines Erachtens auf 2 Wegen lösen:
1. man schreibt einfach für beispielsweise 4 Fälle entsprechende Einträge ins Vokabular. 2. man programmiert sozusagen die Regeln, wobei man noch beachten muss, dass es natürlich gerade im Deutschen und auch sonst in anderen Sprachen so genannte unregelmäßige Formen gibt.
Welcher Weg der bessere ist, hängt meines Erachtens von der jeweiligen Sprache ab. Im Prinzip müssten die Programmierer dazu jeweils sehr gute Muttersprachler hinzuziehen, um zu einem akzeptablen Ergebnis zu kommen. Aber ich denke, dass der 2. Weg wohl richtiger und erfolgversprechender ist, weil nur so die Weiterentwicklung der Sprache berücksichtigt werden kann. Ich hoffe jedenfalls, dass das der Hersteller bereits heute berücksichtigt, so dass mit der Zeit eine erhebliche Verbesserung eintreten wird, ohne dass die Frage der Größe des Vokabulars eine Rolle spielen wird.
Bei ihren Gedankenexperiment ist mir dann folgende schlaue Frage eingefallen:
Gibt es eigentlich ein Spracherkennungsprogramm für Chinesisch? Also, ich will das zwar nicht kaufen, aber da sich diese Sprache beziehungsweise die Schreibung wesentlich von unseren europäischen Sprachen unterscheidet, ergibt sich hier sicherlich genau die Problematik, dass man mit der Größe des Vokabulars allein eine Verbesserung der Spracherkennung nicht erreichen wird.
Grüße
A. Wagner
[Dragon Legal Anywhere mit SpeechMIke LFH 3510, Intel(R) Core(TM)I7-7500 CPU, 16 GB RAM, Windows 10 Pro. 64 Bit [/i]
Zitat von "a.wagner"Vorteil für die Programmierer ist allerdings, dass sie den Prozess der Umsetzung von Sprache in geschriebene Worte beim Menschen "abschauen" können.
Herr Wagner,
da haben Sie recht - allerdings, der Nachteil ist, dass "der Drachen" kein Mensch, noch nicht mal ein Tier ist und keine Menschensprache spricht, auch keine Regeln verstehen wird, und nie nachfragen kann, was der Sprecher denn nun sagen wollte. Leider scheitert Ihr Vorschlag, grammatische Regeln, etwa zur Flexion oder Wortbildung, einzubeziehen, von vornherein daran, dass solche in der Spracherkennung, zumindest in der Ausgestaltung dieser Technologie, die Dragon zu Grunde liegt, nicht angewandt werden können. Davon abgesehen entziehen sich sogenannte "natürliche" Sprachen wie Deutsch, Russisch oder Englisch, kurz alle von Menschen gesprochenen Sprachen, am Ende immer den Bemühungen darum, durchgehende Regelhaftigkeiten in ihnen zu finden. Grammatiken sind dienlich, wenn es darum geht, eine fremde Sprache zu erlernen, erklären aber nicht die komplexen Mechanismen, die dabei wirken, und bleiben schließlich immer Stückwerk. Natürliche Sprachen, im Unterschied zu Kunstsprachen, wie Esperanto, oder zu formalen Sprachen, wie Algebra, sind demgegenüber eigenständige, organartige Gebilde, führen ein Eigenleben, haben eine Geschichte, und sind nie zu fassen, erst recht nicht im Vokabular. Aber egal, mit diesen Ansätzen kommt man nicht weiter, und ich finde es wichtig dies zu bedenken, wenn man sich ein Bild davon machen will, was Spracherkennung ist und was sie leisten kann.
Ich meine einmal gelesen zu haben, dass es Dragon auch für Chinesisch gibt oder gab. Aber da sie den Vergleich schon angesprochen haben, die grundsätzliche Problematik ist dieselbe in allen Sprachen. Spracherkennung erkennt (ganze) Wörter, unabhängig davon, ob die Wörter in der Schrift durch ihnen eigene Symbole repräsentiert werden, so dass für jedes Wort ein eigenes Symbol verwendet werden muss (und von den Schreibern gelernt!), oder durch Zusammenfügung von Symbolen aus einem begrenzten Bestand (etwa die Buchstaben eines Alphabets), wobei jede Zusammenfügung für sich genommen wiederum individuell sein muss, um sie von den anderen zu unterscheiden. Beides beruht letztendlich zum großen Teil auf Konvention, man könnte die Wörter (in der Schrift) auch nummerieren zum Beispiel, was uns ungemeine Schwierigkeiten bereiten würde, dem Drachen aber ziemlich gleichgültig wäre. Die Verschriftlichung einer Sprache ist ohnehin immer der gesprochenen Sprache nachgeordnet, und damit austauschbar gewissermaßen, von praktischen Erwägungen abgesehen. Man denke nur an die Schwierigkeiten der Vereinheitlichung der Schriften bei Aufkommen des Buchdrucks, damals kam es nicht selten vor, dass ein Schreiber ein Wort auf einer einzigen Seite in mehreren Varianten zu Papier brachte.
Aber, um zum Thema zurück zu kehren, in der Spracherkennung geht es um eindeutige Zuordnung von Lautgebilden zu Wortgebilden, und wo es nicht gelingt, ist die Zuordnung entweder nicht vorhanden, oder sie wurde nicht oder nicht richtig identifiziert. All dies aber hat überhaupt nichts mit Verstehen, Sinnhaftigkeit oder Regelhaftigkeit zu tun.
Entschuldigung, wenn dies in eine Vorlesung oder Belehrung ausartet, aber als einer, der das mal ein paar Jahre studiert und sich darüber ernsthafte Gedanken gemacht hat, muss ich das mal anbringen - und hätte noch so viel davon -, zumal es für unser Thema im allgemeinen wie besonders im Zusammenhang des hier zur Debatte stehenden Komplexes von fundamentaler Bedeutung ist.
Grüße Rüdiger Wilke
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD