Topthema: Süddeutsche HiFi-Tage 2025 Die Veranstaltung findet am Samstag, 20.September 2025 und Sonntag, 21.September 2025 statt

Hier kommt die offizielle Ankündigung der Süddeutschen HiFi‑Tage 2025 in Stuttgart – ideal für Besucher:innen

>> Mehr erfahren >> Alle anzeigen

558_17941_1

Topthema: Musik+Lebensart 2025 Eine Messe für Genuss

Am 27. und 28.09.2025 ist es wieder soweit, dann trifft sich das „Who is Who“ in Sachen High End, HiFi und Bildwiedergabe im Konzerthaus Freiburg zur Musik+Lebensart

>> Mehr erfahren >> Alle anzeigen

News Kategorie: Service

Marke:

Voice-to-Text-Revolution: Der rasante Fortschritt in der künstlichen Intelligenz geht weiter

26.02.2024 09:20 Uhr von Robert Glückshöfer

Künstliche Intelligenz lässt sich nicht nur auf Texte und Bilder übertragen, sondern auch auf Stimmen. Schon seit vielen Jahrzehnten wird an Umwandlung von Stimmen zu Text gearbeitet, um Scripte und Untertitel einfacher einzufügen und diese möglichst fehlerfrei zu nutzen.

Stolpersteine gibt es immer, vor allem bei unverständlichen Audiospuren, Dialekten oder schlechten Aufnahmen. Doch KI ist mittlerweile so sehr auf dem Vormarsch, dass sich bald selbst komplizierte Audio- und Videoaufnahmen problemlos zu Text verarbeiten lassen.

525_17698_1

Topthema: Alice Cooper kooperiert mit Revox Die Alice Cooper – Limited Edition von Revox

Rockstar Alice Cooper und Revox haben gemeinsam eine exklusive, weltweit limitierte und signierte Sonderedition von Tonbandmaschinen und Plattenspielern entwickelt.

>> Mehr erfahren >> Alle anzeigen

Wozu dient die Umwandlung von Audio zu Text?

Die Umwandlung von Audioaufnahmen oder Videos zu Text ist wichtig, um Informationen besser und einfacher abrufen zu können. Es hat also vor allem funktionelle Gründe, die sich aber auf viele Bereiche anwenden lassen. Transkripte sind in vielen Bereichen nötig, um sich nicht immer wieder die Audiodatei anhören zu müssen und Infos einfacher an andere Personen weiterzugeben. Worte lassen sich einfacher verfolgen und wichtige Punkte können so besser aufgenommen und vor allem wiederholt werden, ohne ständig die Audioaufnahme zurückspulen zu müssen.

Mit einer Textausgabe werden Audioaufnahmen außerdem zugänglicher für bestimmte Bevölkerungsgruppen, zum Beispiel schwerhörige Menschen, die sich nicht mehr auf ihr Gehör verlassen können. Transkripte helfen dabei, Inhalte auch an diese Leute weiterzugeben.

Audio zu Text Programme vereinfachen diesen Prozess ungemein. Während man sich früher selbst um das Transkribieren kümmern musste, kann das mittlerweile eine künstliche Intelligenz übernehmen. Das Ganze funktioniert im Prinzip wie ein Diktat, nur eben komplett automatisiert und hoffentlich ohne menschliche Fehler, die sich womöglich einschleichen. Sowohl bereits aufgenommene Aufnahmen als auch Live-Übertragungen können mithilfe solcher Programme in Textform umgewandelt werden.

Doch welche Fortschritte wurden auf diesem Feld genau gemacht? Und welche Rolle spielt die künstliche Intelligenz bei der Umsetzung von Voice-to-Text-Programmen?

Fehlerfreie Ausgabe

Rechtschreibung und Grammatik sind für einen menschlichen Transkriptor wichtige Grundbausteine, um Texte auch richtig zu übertragen. Doch auch hier gibt es immer wieder Lücken, die sich auftun und dafür sorgen, dass Texte nicht richtig interpretiert werden. Computer und künstliche Intelligenz sollten damit jedoch weniger Probleme haben, immerhin sind diese darauf trainiert, Fehler zu finden und diese zu korrigieren. Jedes Schreibprogramm verfügt über die Funktionen, die natürlich auch bei Audio-to-Text angewendet werden. Somit werden grobe Fehler vermieden.

KI ist aber auch nicht unfehlbar, was einem sicher von der Texterstellung in Word oder einem anderen Schreibprogramm bekannt ist. Sie kann schlichtweg nicht alle Kontexte und grammatischen Regeln kennen, geschweige denn unbekannte Begriffe, Dialekte oder Fantasienamen richtig zuordnen. Aber auch in diesem Feld tut sich einiges, die Technologie ist auf dem Vormarsch und künstliche Intelligenz wird anhand von früheren Texten deutlich schlauer. Es ist also nur eine Frage der Zeit, bis sie Texte fehlerfrei aus Audioaufnahmen extrahieren und in Textform umsetzen kann.

Textart und andere Feinheiten erkennen

Bei der Erkennung von Textarten ist die Weiterentwicklung von KI ebenfalls notwendig. Hier geht es vor allem um die richtige Zeichensetzung, um bestimmte Textabschnitte voneinander zu unterscheiden. Wie sieht es zum Beispiel bei der Formatierung von Dialogen aus? Künstliche Intelligenz macht auch hier große Fortschritte und lässt sich daher in so ziemlich allen Bereichen der Umsetzung anwenden. Somit können auch künstlerische Audioaufnahmen davon Gebrauch machen, zum Beispiel Theaterstücke, Drehbücher oder normale Bücher.

Sprachen und Akzente zuordnen

Spracherkennung ist ebenfalls etwas, an dem schon seit Jahren gefeilt wird. Viele Tools sind zwar auf mehrere Sprachen ausgelegt, decken aber noch lange nicht die gesamte Bandbreite ab. Manchmal gibt es sogar Programme, die sich nur auf eine Sprache fokussieren. Diese sind dann zwar sehr zuverlässig, aber lassen sich auch nur in einem bestimmten Rahmen anwenden. In unserer heutigen globalisierten Welt wäre es jedoch ein Traum, gesprochene Aussagen direkt und vor allem fehlerfrei in Textform zu übertragen. Anwendungsbereiche wären unter anderem das Sprachenlernen oder Reisen in ferne Länder. Features wie diese gibt es zwar schon, aber sind immer noch anfällig für Fehler.

Schnelligkeit und Genauigkeit

Je länger eine Audiodatei ist, desto länger dauert auch die Transkription als Text. Doch auch hier werden immer wieder neue Meilensteine erreicht, die dafür sorgen, dass KI Texte noch schneller bearbeiten kann. Natürlich muss dabei auch immer ein Fokus auf eine fehlerfreie Umsetzung liegen, jedoch müssen hier zukünftig so gut wie keine Abstriche mehr gemacht werden. Künstliche Intelligenz ist der menschlichen Schnelligkeit schon seit Jahren voraus, jedoch hapert es gerne noch an einigen Stellen. Aktuell ist eine Genauigkeit von 90 bis 99 Prozent gegeben.

Fazit

Speech-to-Text ist ein unheimlich wichtiges Feld in der Entwicklung künstlicher Intelligenz. Seine Geschichte lässt sich bis auf die 1950er Jahre zurückverfolgen, nimmt aber erst jetzt so richtig an Fahrt auf. Alleine Plattformen wie YouTube nutzen ähnliche Tools, um automatisch Untertitel für Milliarden von Videos zu generieren. In Zukunft werden entsprechende Tools nur noch fehlerfreier und schneller funktionieren. Live-Umsetzungen sind ebenfalls möglich und können direkt Sprache in Text umwandeln, um später eine direkte Aufzeichnung eines Gesprächs oder einer Konferenz zu haben. Die Möglichkeiten sind wahrlich endlos und geben vielen Menschen den Zugang zu Audioaufnahmen und Transkripten.

zurück zur Übersicht

Neu im Shop

ePaper Jahres-Archive, z.B. Hifi Test

>> mehr erfahren

565_24278_2

Topthema: Kompaktlautsprecher · Radiant Acoustics Clarity 4.2

Kompaktlautsprecher_Radiant_Acoustics_Clarity_4.2_1755160796.jpg

Maximalklang aus Minimalbox

Dieser Lautsprecher vereint die Erfahrung eines Hifi -Veteranen mit modernster Ingenieurskunst und unterstreicht, dass exzellente Audiowiedergabe nicht an die Größe des Lautsprechers gebunden ist.

>> Mehr erfahren

kostenloses Probeexemplar Cover Probeexemplar