Einige TV-Programme bieten eine extrem schnelle und erstaunlich genaue Transkriptionen an. Entweder als Untertitel oder auch, zum Beispiel in Großbritannien, als Teletext.
Ich muss gestehen, ich hatte angenommen, dass dies von Gerichtsstenografen übernommen wird, weil das gesprochene Wort fast in Istzeit als Text auf dem Bildschirm erscheint. Jetzt habe ich einmal, weil mich das interessierte, bei Reuters angefragt, ob das an dem so ist, und musste zu meinem Erstaunen in der Antwort lesen, dass diese Transkription automatisch von einer Spracherkennung ausgeführt wird. Mehr geruhte man mir allerdings nicht mitzuteilen
Was mich daran erstaunt, diese Spracherkennung ist perfekt und augenscheinlich völlig unabhängig von dem Sprechenden und der Eigenart seiner Aussprache und der Individualität seiner Stimme. Auch die Interpunktion ist über jeden Zweifel erhaben.
Deshalb habe ich meine Zweifel, ob die mir gegebene Auskunft der Wahrheit entspricht. Weiß hier zufällig jemand mehr Details?
Zitat von HaraldWas mich daran erstaunt, diese Spracherkennung ist perfekt und augenscheinlich völlig unabhängig von dem Sprechenden und der Eigenart seiner Aussprache und der Individualität seiner Stimme. Auch die Interpunktion ist über jeden Zweifel erhaben.
Ich habe mir so etwas noch nicht angesehen, aber aus dieser Beschreibung geht meines Erachtens eindeutig hervor, dass, worum es sich auch immer handelt, sicherlich keine automatische Spracherkennung ohne menschlichen Eingriff im Spiel ist. Erstens ist die Technik nicht so weit, zweitens spricht kein Originalsprecher mit Interpunktion (außer wenn er mit Spracherkennung diktiert), woher sollte eine Maschine also wissen, wo die Sätze anfangen, wo sie enden, und wo die Satzzeichen hin gehören?
Gruß, RW
_______________________________________
Dragon Professional 16 auf Windows 10 Pro und Windows 11 SpeechMike Premium (LFH3500); Office 2019 Pro + Office 365 (monatliches Abo) HP ZBook Fury 17 G8 - i7-11800H - 24 MB SmartCache - 32 GB RAM - 1 TB SSD
Zitat von R.WilkeErstens ist die Technik nicht so weit, zweitens spricht kein Originalsprecher mit Interpunktion (außer wenn er mit Spracherkennung diktiert), woher sollte eine Maschine also wissen, wo die Sätze anfangen, wo sie enden, und wo die Satzzeichen hin gehören? Gruß, RW
Ich habe noch ein bisschen geforscht, weil mich das nun wirklich interessiert hat. Insbesondere die Präzision der Transkriptionen ist, wenn sie denn von einem Computer geschrieben wurde, gewissermaßen fast furchterregend.
Und man findet ein paar Hinweise bei Reuters:
The text navigator is generated using a speech to text technology and there may be errors that occur in the conversion process. Thomson Reuters does not guarantee the completeness or accuracy of the content in the text navigator.
Und dann schließlich kommt der entscheidende Hinweis:
reviewed for accuracy
Also Schlussfolgerung: Ausgangspunkt ist demnach in der Tat eine Spracherkennungssoftware, aber dahinter stecken korrigierende Menschen. Was mir jedoch jedoch Rätsel aufgibt: die Geschwindigkeit, mit der die Transkriptionen auf dem Bildschirm erscheint (in Großbritannien zum Beispiel gibt es dem Morgenmagazin vergleichbare Sendungen, wo über Teletext ebenfalls eine Transkriptionen aufgerufen werden kann).
Diese Geschwindigkeit kann ich mir nur damit erklären, dass mit leichtem Zeitversatz gesendet wird. Für eine gute Sekretärin dürften zwischen 10 und 30 Sekunden ausreichend sein, nachträgliche Korrekturen vorzunehmen.
DNS 15.3 Professional Individual auf Windows 10 Home (64-bit) Plantronics PLT Savi W440 Intel (R) Core (TM) i7-7500 2,7 GHz 8 GB RAM 64 Bit
Ein kurzer Auszug: "Untertitel-Redakteure müssen lange ausgebildet werden, bis sie in der Lage sind, hier gute Ergebnisse zu erzielen. Aber auch die Spracherkennungssoftware muss ausgiebig trainiert werden. So müssen zunächst zahlreiche Texte eingelesen werden, damit sich die Software auf die Sprechweise des jeweiligen Untertitlers einstellt. Zudem müssen immer wieder Fachbegriffe und Namen eingesprochen werden."
Danke für diese Information, das erhellt die Vorgehensweise der Transkription.
Nun ist mir klar, wie das funktioniert. Ganz offensichtlich wird der Text von einem Menschen angehört und nachgesprochen, und auf die Weise mit einer Spracherkennung eingelesen und zugleich korrigiert. Der Transkripierende muss natürlich mit einer ganz erheblichen Geistesgegenwart arbeiten. Nur so kann garantiert werden, dass die Transkription nahezu perfekt ist.
DNS 15.3 Professional Individual auf Windows 10 Home (64-bit) Plantronics PLT Savi W440 Intel (R) Core (TM) i7-7500 2,7 GHz 8 GB RAM 64 Bit