Einfach loslegen mit freier deutscher Sprachausgabe

TL;DR
Auf meinem Youtube Kanal findest Du Schritt-für-Schritt Anleitungen, wie Du meine künstliche "Thorsten-Voice" verwenden kannst. Auf Microsoft Windows, Apple Mac OS X, Linux und u.a. in Home Assistant.
Viel Spaß 😊
https://www.youtube.com/watch?v=vOAFyReDttk&list=PL19C7uchWZeqpSEffUcOMvyKgdxb7YjqL

Wenn Du das liest, möchtest Du bestimmt nicht wissen, wieviele Monate ich Texte vorgelesen habe, wie aufwendig Dominik die Aufnahmen optimiert hat und wie lange diverse CPUs und GPUs „geglüht“ haben um mit „machine learning“ ein TTS Modell bereitzustellen, oder?

Ihr wollt doch einfach nur die TTS-Stimme nutzen.

Probehören gefällig?

Hier sind einige Audiobeispiele wie meine künstliche Stimme klingt. Dann habt ihr einen Eindruck davon, bevor ihr weitermacht.

„Dieses Beispiel wurde mit der künstlichen Thorsten Stimme erzeugt.“
„Für den heutigen Sonntag stehen keine Termine in deinem Kalender.“
„Über Rückmeldungen zu meiner freien T T S – Stimme bin ich dankbar.“

Selber ausprobieren

Du kannst meine Stimme mit Deinen eigenen Texten direkt im Browser ausprobieren. Dafür habe ich einen Bereich auf Huggingface erstellt.

https://huggingface.co/spaces/Thorsten-Voice/demo

Ein paar persönliche Worte

Bevor Du meine Stimme verwendest, nimm‘ Dir bitte einen kurzen Moment Zeit einige persönliche Worte von mir zu lesen.

Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.

Thorsten Müller (2020)

Auf meinem „Thorsten-Voice“ Youtube Kanal gibt es jetzt Schritt-für-Schritt Anleitungen, wie Du meine freie, künstliche, Text-to-Speech Stimme in verschiedenen Betriebssystemen und Anwendungen verwenden kannst 🥳.

Schritt-für-Schritt Video Anleitungen

Microsoft Windows

Probleme mit der betonung von umlauten unter windows?

Manchmal passiert es, dass Umlaute unter Windows nicht richtig betont werden. Das scheint ein Problem im Zusammenhang mit dem Hilfswerzeug „espeak-ng“ zu sein. Wenn du also espeak-ng verwendest und PROBLEME mit Umlauten hast, kannst Du folgendes probieren:

  • Deinstalliere espeak-ng
  • Lade espeak (also ohne -ng) herunter
  • Entpacke espeak und lege die Datei espeak.exe in dein Windows Programmverzeichnis. Alternativ in jeden beliebigen Ordner. Dieser (Ordner) muss aber der „PATH“ Umgebungsvariable hinzugefügt werden.

Damit sollte meine künstliche Stimme auch deutsche Umlaute problemlos richtig betonen können 😊.

Linux

Apple Mac OS X

Raspberry Pi

Nutzung in Home Assistant

Welche Möglichkeiten stehen zur Verfügung

Es stehen aktuell drei unterschiedliche „Thorsten“ TTS Modelle zum einfachen und lokalen Nutzen bereit.

  • Thorsten-DDC
  • Thorsten-VITS
  • Thorsten-Mimic3

Die ersten beiden Modelle wurde mit Coqui TTS trainiert und sind etwas ressourcenaufwendiger in der Erzeugung. Dafür haben sie eine höhere Qualität als die Thorsten-Mimic3 Stimme. Alles was Du brauchst um die Stimmerzeugung lokal zu betreiben ist eine Python 3.7+ Umgebung. Die beiden ersten Modelle haben eine leicht unterschiedliche Aussprache. Welches man bevorzugt ist „reine Geschmackssache“ – einfach ausprobieren und entscheiden :-).

Die Thorsten-Mimic3 Stimme wurde von Mycroft AI im Rahmen ihrer lokalen TTS Lösung Mimic3 bereitgestellt. Sie kann beispielsweise auch auf einem Raspberry Pi schnell generiert werden.

Thorsten-DDC

- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
- http://localhost:5002 im Browser öffnen

Thorsten-VITS

- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/vits
- http://localhost:5002 im Browser öffnen

Thorsten-Mimic3

Mimic3 ist die TTS Lösung von Mycroft AI, die auch performant auf Systemen mit kleiner Rechenleistung (bspw. Raspberry Pi) erzeugt werden kann. Dafür ist sie qualitativ den beiden anderen TTS-Modellen etwas unterlegen.

Informationen zum Download und Einrichtung sind hier zu finden.

Stimme per Webfront erzeugen

Hast Du die oberen Schritte gemacht rufe die Seite http://localhost:5002 mit deinem Browser auf und du solltest folgende Seite sehen.

Coqui TTS Server Webfrontend

Über dieses simple Webfrontend kannst Du Sätze erzeugen lassen und als Audiodatei abspeichern. Bitte beende jeden Text mit einem typischen Satzzeichen wie Punkt, Frage- oder Ausrufezeichen. Ansonsten kann es zu merkwürdigen Ergebnissen kommen.

Stimme mit cURL (API Get-Request) erzeugen

Das Webfrontend ist gut um testweise Sätze zu erzeugen und zu experimentieren. Wenn Du aber TTS in deinen Anwendungsfall einbauen willst bietet sich ein simpler API Aufruf an. Das kannst Du beispielsweise mit cURL machen.

curl -o ausgabe.wav http://localhost:5002/api/tts?text=Hallo.

Als Ergebnis bekommt ihr dann die gesprochene Ausgabe in ausgabe.wav.

Nutzung von cTTS für Python Integration

Wenn Du die Spracherzeugung in eine Python Anwendung integrieren möchtest, dann kannst Du mein cTTS Modul nutzen.

pip install ctts

Folgendes Python Code-Snipplet zeigt die Verwendung:

from ctts import cTTS

cTTS.synthesizeToFile("output.wav", "Das ist ein Test.")

Stimme per CLI erzeugen

tts --model_name tts_models/de/thorsten/tacotron2-DDC --out_path output.wav --text "Das ist ein Test."

Emotionale Betonung von Thorsten-Voice

Kann Thorsten-Voice auch emotional klingen?

Ja, meine künstliche Stimme kann auch emotional klingen – auch wenn bei der Qualität noch Luft nach oben ist. Die folgenden Beispiele wurden mit Mimic 3 erzeugt.

In folgendem Video zeige ich euch, wie ihr Mimic 3 einrichtet und damit meine „emotionale“ Stimme auf eurem Computer lokal erzeugen könnt.

😀: Ich kann auch gut gelaunt und fröhlich klingen.
😡: Ist eine wütende Stimme gewollt, so kann ich auch laut sein.
🤢: Manche Kinder widert Brokkoli ziemlich an.
🥴: Die Thorsten Stimme kann auch angetrunken sprechen.
🥱: Kurz vor dem zu Bett gehen, klingt die Stimme müde.
😴: Gerade Nachts ist eine flüsternde Stimme empfehlenswert.
Interested in free voice tech video tutorials?
This is default text for notification bar