1

Thema: Fachvokabulare, Sinn? Unsinn?

Das Thema ist hier http://dragon-spracherkennung.forumprof … uegen.html schon mal angesprochen worden, verdient aber einen eigenen Thread.

Fazit für den Eiligen: Ich rate ab, was jedoch bei nur einer Probe nur bedingt verallgemeinerbar ist. Jedenfalls das Vokabular ganz genau anschauen und anhand eigener Texte die Effizienz testen, bevor man Geld ausgibt! Gerade der Einsteiger, der zu großzügigen Investitionen bereit ist, damit alles von Anfang an schön funktioniert, macht hier schnell einen Griff ins Klo. Dann ist nicht nur ein 500-er in den Dreck gesetzt, sondern womöglich noch Schaden angerichtet.

dsk schrieb:

Um aber eine gewisse Perspektive auf professionelle Fachvokabulare zu werfen - hier reden wir von Wortlisten mit bis zu 50.000 Wörtern und Texten im Umfang von Dutzenden von Megabyte (plain text!), auf deren Grundlage das Vokabular erstellt wurde. Ein einzelner Anwender hat in der Regel wesentlich weniger Material zur Verfügung, muss damit aber natürlich auch nur seinen persönlichen Wortschatz abdecken, hätte also zum Beispiel nicht den Anspruch, allen Radiologen der Republik einen brauchbaren Wortschatz, der nur noch minimal ergänzt werden müsste, zu liefern.
-dsk

Da wird viel unnötiger Ballast mitgekauft. Es mag vielleicht hinkommen, dass es eines Volumens von 50.000 Wörtern bedarf, um alle deutschsprachigen Radiologen zu bedienen. Das Problem wird nur sein, dass der einzelne Radiologe davon nur 5000 gebrauchen und ihm andererseits 500 Wörter trotzdem fehlen werden.

Ein aber wichtigerer Aspekt ist, ob der "Fachhändler" zur Erstellung eines Fachvokabulars zum Beispiel für Radiologen überhaupt in der Lage ist, denn als Fachhändler ist er noch längst kein ausgewiesener Fachmann für radiologische Terminologie und schon gar nicht für all die vielen Disziplinen, für die Fachhändler üblicherweise Fachvokabulare anbieten.

Was macht der Fachhändler zur Erstellung eines Fachvokabulares? Viel Material zusammentragen, aber ob das wirklich den Bedürfnissen entspricht, vermag er letztlich in Ermangelung von Fachkenntnissen nicht zu beurteilen.

Vor Jahren habe ich ein Fachvokabular für einen technischen Bereich angeschafft und ärgere mich noch heute über dessen Relikte in meinem aktuellen Wortschatz.

  • Gut 25.000 Wörter hat es umfasst, davon rund 3000 völlig unbrauchbare Eigennamen und Anschriften, die es dem Fachhändler zusammen mit den Fachbegriffen in das Vokabular gespült hat.

  • Weitere geschätzt 2000 Wörter entfielen auf individuelle und in keinem Wörterbuch enthaltene Wortschöpfungen, die wahrscheinlich selbst der Erfinder nicht noch einmal verwendet hat.

  • Bei den Fachtermini sehr vieles doppelt, weil in unterschiedlicher und zum Teil falscher Schreibweise. Da hat der Händler mehrere Quellen genutzt und mindestens eine davon war orthografisch nicht sauber.

  • Ein winziges Segment des gewählten Fachgebiets war unendlich vertieft; davon habe ich bis heute kaum etwas gebrauchen können. Auf der anderen Seite gewaltige Lücken; sehr viele Standardtermini des Fachgebiets fehlten.

  • Die Krönung des ärgerlichen Unsinns: Eine Infektion meines Drachens durch triviale Alltagswörter in falscher Orthographie.

  • Fehlanzeige auch bezüglich dessen, was ich mir vom Fachvokabular sonst noch erwartet hatte, nämlich dass Plural, Deklination und Konjugation der Fachbegriffe enthalten sind. Da kommt ein Korrekturaufwand auf einen zu, dass man sich sein Fachvokabular gleich selbst stricken kann.

  • Eine Frage, der ich dann schon nicht mehr nachgegangen bin, ist, wie sich solch ein Fachvokabular beim DNS-Versionswechsel verhält. Soweit es überhaupt mit Aussprache, gesprochenen Formen und Worteigenschaften unterlegt sein sollte, dürfte das futsch sein, sobald in der neuen Version ein neuer Benutzer angelegt wird.

In meinem Fall dürfte das Fachvokabular nur dadurch entstanden sein, dass der Fachhändler den Drachen viele Dokumente auf unbekannte Wörter hat abgrasen lassen. Das kann auch jeder Nutzer selbst und hat dabei den Vorteil, für ihn tatsächlich relevantes Material auswählen zu können.

DNS 11 Prof - Win7/64 Ultim - Intel Xeon W3520/12 GB - SSD Intel 160 GB

2

Re: Fachvokabulare, Sinn? Unsinn?

In gewohnt offener und teilweise sogar schonungsloser Darstellung macht unser Mitglied oguh auf eine grundsätzliche Problematik bei der individuellen und fachspezifischen Anpassung des Wortschatzes aufmerksam, bei der Hersteller und Händler von so genannten Fachvokabularen nicht besonders gut abschneiden. Meines Erachtens dürfen und müssen auch solche Äußerungen in einem freien Forum möglich sein, zumal wenn sie, wie hier ausdrücklich vermerkt, auf eigener Erfahrung beruhen und keinen Anspruch auf Allgemeingültigkeit erheben, unabhängig davon aber sachlich begründet sind.

Ich nehme an, dass die älteren Semester unter uns sofort wissen, wovon die Rede ist, möchte aber für die neu Hinzukommenden noch einige erklärende Bemerkungen anfügen.

Spracherkennungssoftware kann bei der Umsetzung gesprochener Rede in geschriebenen Text nur solche Wörter verwenden, die bereits im Vokabular enthalten sind. In der Grundausstattung verfügt das Vokabular von Dragon NaturallySpeaking über etwa 150.000 Einträge im so genannten aktiven Wortschatz. Der deutsche Gesamtwortschatz aber ist schon statisch betrachtet noch um ein Vielfaches größer, hinzu kommt, dass auf allen Fachgebieten nahezu "eigene Sprachen" entstanden sind und sich ständig wandeln, darüber hinaus aufgrund einer speziellen Eigenart der deutschen Sprache (Kompositabildung) jederzeit und nahezu grenzenlos neue Wörter gebildet werden, und weitere Spezialfälle wie insbesondere Eigennamen durch die bereits genannten Kriterien überhaupt noch nicht erfasst sind.

Der Hersteller der Software hat sich aber große Mühe gegeben, und, wie ich finde, mit Erfolg, den allgemeinen Grundwortschatz so zusammenzustellen, dass damit eine recht große Anzahl von Themengebieten und Verwendungszwecken überwiegend abgedeckt ist. Jeder Anwender der Software wird aber früher oder später, und meistens sehr schnell, feststellen, dass er selbst noch Wörter hinzufügen muss. Meistens fängt dies bereits bei den ersten Eigennamen an, die diktiert werden sollen. Dafür ist aber noch reichlich Platz geschaffen, grob geschätzt können noch weitere 50.000 Einträge hinzugefügt werden, bevor das Vokabular überläuft.

Wenn man die Software aber beruflich verwendet, wird man je nach Einsatzgebiet bisweilen umso schneller feststellen, dass Fachausdrücke und Redewendungen nicht oder nur teilweise bekannt sind, so dass entsprechend umfangreicher Aufwand anfallen wird, das Vokabular demgemäß anzupassen. Diese Lücke versuchen die Händler dadurch zu schließen, dass sie für die verschiedenen Gebiete, insbesondere für Juristen und Ärzte, Fachvokabulare anbieten, die als Erweiterung des Wortschatzes installiert werden mit dem Ziel, dass der Anwender sogleich ohne weitere Anpassungen die Software voll zum Einsatz bringen kann. Voraussetzung für die Verwendung eines Fachvokabulars ist allerdings die professionelle Version von DNS aufgrund der Lizenzbestimmungen.

Entscheidendes Kriterium für die Leistungsfähigkeit eines benutzerdefinierten Vokabulars ist aber nicht nur eine möglichst vollständige Liste der unbekannten Wörter, sondern zugleich auch eine Anpassung an den Schreibstil, was bedeutet, dass die Kontexte, in denen diese unbekannten Wörter auftreten, dem Programm möglichst umfassend bekannt sein müssen.

Die Frage, um die es nun geht ist die, inwieweit die an die Verwendung von Fachvokabularen verknüpften Qualitätsversprechen eingelöst werden und, damit verbunden, ob sich solche Investitionen grundsätzlich lohnen. Ich selbst vermag das nicht zu beurteilen, weil ich bisher noch kein Fachvokabular ausreichend verwendet, und nur ganz kurzfristig getestet habe, um dazu eine substantielle Stellungnahme abgeben zu können.

Die Alternative zur Verwendung vorbereiteter Fachvokabulare ist die, dass der Anwender über lange Zeit seinen eigenen Wortschatz zusammen trägt, indem er die neuen Wörter sammelt wie ein Eichhörnchen die Nüsse vor dem Winter - dieses Bild fällt mir nur deshalb ein, weil ich kürzlich so oft beobachten konnte, wie das Eichhörnchen die Nüsse wieder herausholte, wenn ich aus dem Fenster blickte.

Der "dritte Weg", wenn diese Arbeit delegiert werden soll, ist, und das wäre meines Erachtens der wirklich sinnvolle nach Maßgabe des möglichen, die Erstellung eines maßgeschneiderten, auf den einzelnen Anwender zugeschnittenen Fachvokabulars auf der Basis einer Sammlung von bereits vorliegenden Texten, die so gut als möglich sein Gebiet beziehungsweise seine Gebiete abdecken. Wer sich entschließt, ein solches Produkt in Auftrag zu geben, muss aber unweigerlich mit ungleich höheren Kosten rechnen als beim Erwerb eines Fachvokabulars aus dem Regal.

Eines jedoch darf man nie vergessen, ganz gleich, wie gut und gründlich das Vokabular vorbereitet wurde, der Anwender wird immer wieder darauf aufmerksam gemacht, dass kein Vokabular jemals abgeschlossen ist!

Viele Grüße
Rüdiger Wilke

DPI 15 (15.00.000.076) auf Windows 8.1 (64-bit)
SpeechMike Premium (LFH3500) mit Philips Device Control Center (3.0)
Intel i7 2600 QuadCore - 3.4 GHz - 8 MB L3-Cache - 6 GB RAM

3

Re: Fachvokabulare, Sinn? Unsinn?

R.Wilke schrieb:

Entscheidendes Kriterium für die Leistungsfähigkeit eines benutzerdefinierten Vokabulars ist aber nicht nur eine möglichst vollständige Liste der unbekannten Wörter, sondern zugleich auch eine Anpassung an den Schreibstil ...

... womit ein weiteres Problem benannte wäre, denn es versteht sich von selbst, dass der Schreibstil von Spender und Empfänger wenig gemein haben dürften. Aber nachdem die Ausgangstexte einem ganzen Spenderkollektiv entstammen, kann von "Schreibstil" ohnehin nicht mehr gesprochen werden.

DNS 11 Prof - Win7/64 Ultim - Intel Xeon W3520/12 GB - SSD Intel 160 GB

4

Re: Fachvokabulare, Sinn? Unsinn?

Dieser Hinweis ist sicherlich zu beachten. "Schreibstil" ist aber immer auch relativ. Es mag gewiss relativ homogen diktierende Berufsgruppen geben, die auch mit einem nicht individuell angepassten Fachvokabular sehr gute Ergebnisse erzielen. So weit ich weiß, trifft das auf Mediziner zu, wobei mir nicht klar ist, inwieweit alleine schon die physikalische Anwesenheit der Fachtermini, die überdies ziemlich eindeutig in Schreibung und Lautung sein dürften, dazu beiträgt, und die Kontexte dann nicht mehr den Ausschlag geben müssen.

Bei anderen Sparten sieht das aber wieder anders aus. Ich würde zum Beispiel davon ausgehen, dass wir beide nichts davon hätten, wenn wir unsere Vokabulare/Profile untereinander austauschen würden, obwohl wir auf ähnlichen Gebieten unterwegs sind - wie wir zwischenzeitlich heraus gefunden haben -, und vielleicht sogar eine beachtliche gemeinsame Schnittmenge an Wörtern besteht.

Im übrigen, der allgemeine Grundwortschatz beruht ebenfalls auf der Analyse einer sehr breiten, kollektiven Basis, und ist nach meinem Empfinden dennoch sehr leistungsfähig.

Noch zur Ergänzung: Die Leistungsfähigkeit eines Spracherkennungssystems zeigt sich immer erst bei der Verarbeitung fremden Materials, diesen unmittelbar einleuchtenden Grundsatz und Maßstab haben die Entwickler schon immer angelegt, woraus folgt, entscheidend ist nicht, was die Entwickler testen, sondern was die Anwender erzielen.

Grüße
Rüdiger Wilke

DPI 15 (15.00.000.076) auf Windows 8.1 (64-bit)
SpeechMike Premium (LFH3500) mit Philips Device Control Center (3.0)
Intel i7 2600 QuadCore - 3.4 GHz - 8 MB L3-Cache - 6 GB RAM

5

Re: Fachvokabulare, Sinn? Unsinn?

R.Wilke schrieb:

Es mag gewiss relativ homogen diktierende Berufsgruppen geben, die auch mit einem nicht individuell angepassten Fachvokabular sehr gute Ergebnisse erzielen. So weit ich weiß, trifft das auf Mediziner zu, wobei mir nicht klar ist, inwieweit alleine schon die physikalische Anwesenheit der Fachtermini, die überdies ziemlich eindeutig in Schreibung und Lautung sein dürften, dazu beiträgt, und die Kontexte dann nicht mehr den Ausschlag geben müssen.

Die "physikalische Anwesenheit" der Fachtermini, d.h. die simple Präsenz im Vokabular, bewerkstelligt nur durch das Hinzufügen von Wörtern, dürfte zur Erkennung allemal reichen.

Vor einiger Zeit hatte ich intensiv mit Altlasten zu tun, einem von Fachtermini strotzenden Bereich, von denen im Grundwortschatz des Drachen nichts enthalten ist. Geholfen habe ich mir damit, dass dem Drachen Stichwortverzeichnisse aus Büchern und Zeitschriften über die chemischen, geologischen, medizinischen, juristischen und technischen Zusammenhänge der Erkundung, Gefährdungseinschätzung und Sanierung von Altlasten nebst einigen Gutachten zu fressen gegeben wurden. Das funktionierte einwandfrei und die Software hat die Fachbegriffe dann problemlos erkannt.

Gäbe es ein "Fachvokabular Altlasten", wäre vorstehendes Exempel ein Beleg, dass keine Notwendigkeit besteht, es zu kaufen, um die Software in diesem Fachbereich einzusetzen.

DNS 11 Prof - Win7/64 Ultim - Intel Xeon W3520/12 GB - SSD Intel 160 GB

6

Re: Fachvokabulare, Sinn? Unsinn?

Hallo oguh

Dein Beitrag zum Thema Fachvokabulare ist ja nun schon eine Weile her. Ich bin inzwischen beim 13. Drachen und benutze den Drachen gerne und regelmäßig. Auch jetzt diktiere ich.Nun aber zu meiner Fragestellung bzw. der Einleitung zu dieser Frage:
Auch ich beschäftige mich gerade mit der Erstellung mit einem für mich und meinen Kollegen zugeschnittenen Fachvokabular für den Drachen. Wie der Zufall so will, ebenso wie vor ein paar Jahren Du, im Bereich Altlasten. Jede Menge Fachausdrücke und Fremdwörter.

Ich würde inzwischen  sogar behaupten, dass mein Fachvokabular in diesem Bereich nicht schlecht ist.. Wie man das macht habe ich hier im Forum gelesen/ gelernt. Vielen Dank für die ausführlichen und hilfreichen Informationen an die Forumsbetreiber. Jetzt aber zur eigentlichen Frage. Kennst Du / Ihr eine Internetseite oder ein Forum in dem die Fachvokabulare bzw. Wortlisten themenbezogen frei ausgetauscht werden können? Ich zum Beispiel hätte kein Problem damit, mein Vokabular mit anderen  Nutzern zu tauschen und zu ergänzen. Dies würden zwar diverse Fachfirmen für Fachvokabulare nicht toll finden da sie dann kein Geld mehr verdienen...... Aber dies steht ja hier nicht zur Debatte. Das Internet steht schließlich für freien Informations- und Wissensaustausch!
Viele Grüße
Alteisentreiber

7

Re: Fachvokabulare, Sinn? Unsinn?

alteisentreiber schrieb:

. Kennst Du / Ihr eine Internetseite oder ein Forum in dem die Fachvokabulare bzw. Wortlisten themenbezogen frei ausgetauscht werden können? Ich zum Beispiel hätte kein Problem damit, mein Vokabular mit anderen  Nutzern zu tauschen und zu ergänzen.

Hallo alteisentreiber, Ihr Angebot ist durchaus lobenswert - aber angesichts des in diesem Thread sehr ausführlich und gründlich diskutierten Für und Wider Fachvokabulare dürfte kaum jemand das Angebot annehmen wollen. Aus dem gleichen Grund scheint es auch keine Vokabula-r/Wortlisten-Tauschbörse zu geben. Auch wenn man sich gelegentlich eine Wortliste wünscht, die - im Originalvokabular schmerzlich vermisste - Mehrzahlformen und dgl. enthält.
Gruß, Pascal