How-To: So wandeln Sie Audio/Video-Dateien in Text mit Whisper um

Mit der KI Whisper wandeln Sie kostenlos und kinderleicht Audio-Dateien und Videos in Text um. Whisper versteht fast 100 Sprachen und erzeugt Ihnen in wenigen Minuten Untertitel für z.B. Instagram-Videos oder konvertiert aufgenommene Interviews und Konferenzsitzungen um. Wie Sie Whisper installieren und nutzen, zeigt unsere praktische Schritt-für-Schritt-Anleitung.

Während wir in unserem Beitrag »Die KI hilft: Automatisch Audio- und Video-Dateien in Text umwandeln« erklärt haben, was automatische Transkription ist, lernen Sie im Folgenden Schritt-für-Schritt, wie Sie die KI Whisper ohne Installation auf Ihrem Rechner nutzen können.

Audio-Dateien in Text umwandeln

Um Audio- und Videodateien zur Bearbeitung an Whisper zu übergeben, müssen Sie die Software entweder auf Ihrem eigenen Computer installieren oder Sie nutzen den bequemeren und einfacheren Weg über das Google Collaboratory. Diese Anwendung kann kostenlos über Google Drive genutzt werden. Sie benötigen lediglich ein Google-Konto.

Wenn Sie über ein eigenes Google-Konto verfügen, können Sie Google Collaboratory über Google Drive installieren und alle Funktionen direkt über Ihren Webbrowser nutzen. Wir empfehlen hierfür den Browser Chrome.

Installation von Google Colaboratory

Gehen Sie zu Google Drive und melden Sie sich mit Ihrem Google-Konto an.
Klicken Sie auf Neu in der oberen linken Ecke und wählen Sie Mehr und dann Weitere Apps verknüpfen.
Geben Sie in das Suchfeld Colaboratory ein und installieren Sie die Anwendung.

Installation von Whisper

Um Google Colaboratory zu nutzen, muss in Google Drive über _Mehr_ erst installiert werden

Öffnen Sie jetzt Google Colaboratory über Google Drive. Klicken Sie auf Neu in der oberen linken Ecke und wählen Sie Mehr. Anschließend wählen Sie die frisch installierte App Google Colaboratory auf.
Geben Sie Ihrem Projekt einen Namen und klicken Sie dazu oben auf Untitled0.ipynb und ersetzen Sie Untitled0 z.B. mit AudioTranskription.
Im nächsten Schritt stellen Sie über das Menü Laufzeit › Laufzeittyp ändern den Hardwarebeschleuniger auf GPU und klicken Sie auf Speichern – siehe Bildschirmfoto. Das bewirkt, dass unser virtuelles Notebook die Grafikkarte nutzt und schneller transkribiert.
Kopieren Sie jetzt die folgenden beiden Befehle in das Textfeld direkt neben dem Play-Button:

!pip install git+https://github.com/openai/whisper.git

!apt update && apt install ffmpeg
Klicken Sie auf die Play-Schaltfläche, um die Installation von Whisper und den benötigten Paketen zu starten.

Schnellere Ergebnisse erhält man, wenn der Laufzeittyp auf GPU umgestellt wird

Verwendung von Whisper

Nach der obigen Installation können Sie jetzt Audio- bzw. Videodateien transkribieren. Um eine Datei zu transkribieren, gehen Sie wie folgt vor:

Klicken Sie in der linken Seitenleiste auf das Ordner-Symbol, um den Ordner aufzuklappen.
Ziehen Sie eine Audio- oder eine Videodatei per Drag & Drop direkt in den Ordner, die Sie transkribieren möchten.
Wurde die Datei vollständig hochgeladen, klicken Sie auf + Code unterhalb der Menüleiste.
Es öffnet sich ein weiteres Textfeld mit einem Play-Button. Kopieren Sie den folgenden Code in das Textfeld.
!whisper "beispieldatei.mp3" –language de –model medium
Klicken Sie jetzt auf den Play-Knopf und Whisper übernimmt seine Arbeit.

Nach der Umwandlung lädt man die Texte über die drei Punkte auf den eigenen Rechner herunter

Wenn Whisper die Transkription der Datei beendet hat, sehen Sie das Ergebnis in Form von Textdateien im Ordner auf der linken Seite. Der reine Text befindet sich in der .txt-Datei. Möchten Sie die Zeitstempel dazu haben – um die Datei als Untertitel zu einem Video hinzuzufügen – wählen Sie das entsprechende Format. Um beispielsweise Untertitel für YouTube hochzuladen, verwenden Sie das Dateiformat .srt.

Kurze Erklärung: Was bedeutet der Code?

Der Befehl …

!whisper “audio.mp3” --language de --model medium

… startet Whisper, um eine Audio-Datei audio.mp3 zu transkribieren. Der Befehl nutzt das mittlere Modell (medium model) für die Spracherkennung, um ein ausgewogenes Verhältnis zwischen Genauigkeit und Geschwindigkeit zu erzielen.

Die Option --language de gibt an, dass die Sprache der Audio-Datei Deutsch ist. Diese Option ist nützlich, um die Genauigkeit der Transkription zu erhöhen. Wenn die Sprache nicht angegeben wird, versucht das Tool, die Sprache automatisch zu erkennen.

Alternative: Whisper auf dem eigenen Rechner nutzen

Wenn Sie Whisper auf Ihrem Computer installieren, haben Sie den Vorteil, dass Sie nicht auf eine stabile Internetverbindung angewiesen sind.

Dies ist besonders nützlich, wenn Sie große Audio-Dateien transkribieren möchten oder wenn Sie sensible Informationen haben, die nicht über das Internet übertragen werden sollen. Die Installation von Whisper auf dem eigenen Computer erfordert jedoch einige technische Kenntnisse und ist daher etwas komplizierter als die Nutzung von Google Collaboratory.

Wenn Sie sich entscheiden, Whisper auf Ihrem eigenen Computer zu verwenden, sollten Sie sicherstellen, dass Sie über die notwendigen Ressourcen verfügen, um das Programm auszuführen.

Whisper ist ein ressourcenintensives Programm, das für eine schnelle und genaue Transkription viel Speicher und Prozessorleistung benötigt. Wenn Sie einen älteren Computer haben, kann es zu Verzögerungen oder Abstürzen kommen. Whisper läuft derzeit nur auf bestimmten Betriebssystemen wie Ubuntu oder MacOS.

Darum lohnt sich ein Blick auf Google Colaboratory für den ersten oder dauerhaften Einsatz von Whisper.

‹ Die KI hilft: … Wie ein junger … ›