Wenn Du das liest, möchtest Du bestimmt nicht wissen, wieviele Monate ich Texte vorgelesen habe, wie aufwendig Dominik die Aufnahmen optimiert hat und wie lange diverse CPUs und GPUs „geglüht“ haben um mit „machine learning“ ein TTS Modell bereitzustellen, oder?
Ihr wollt doch einfach nur die TTS-Stimme nutzen.
Probehören gefällig?
Hier sind einige Audiobeispiele wie meine künstliche Stimme klingt. Dann habt ihr einen Eindruck davon, bevor ihr weitermacht.
Selber ausprobieren
Du kannst meine Stimme mit Deinen eigenen Texten direkt im Browser ausprobieren. Dafür habe ich einen Bereich auf Huggingface erstellt.
https://huggingface.co/spaces/Thorsten-Voice/demo
Ein paar persönliche Worte
Bevor Du meine Stimme verwendest, nimm‘ Dir bitte einen kurzen Moment Zeit einige persönliche Worte von mir zu lesen.
Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.
Thorsten Müller (2020)
Welche Möglichkeiten stehen zur Verfügung
Es stehen aktuell drei unterschiedliche „Thorsten“ TTS Modelle zum einfachen und lokalen Nutzen bereit.
- Thorsten-DDC
- Thorsten-VITS
- Thorsten-Mimic3
Die ersten beiden Modelle wurde mit Coqui TTS trainiert und sind etwas ressourcenaufwendiger in der Erzeugung. Dafür haben sie eine höhere Qualität als die Thorsten-Mimic3 Stimme. Alles was Du brauchst um die Stimmerzeugung lokal zu betreiben ist eine Python 3.7+ Umgebung. Die beiden ersten Modelle haben eine leicht unterschiedliche Aussprache. Welches man bevorzugt ist „reine Geschmackssache“ – einfach ausprobieren und entscheiden :-).
Die Thorsten-Mimic3 Stimme wurde von Mycroft AI im Rahmen ihrer lokalen TTS Lösung Mimic3 bereitgestellt. Sie kann beispielsweise auch auf einem Raspberry Pi schnell generiert werden.
Thorsten-DDC
- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
- http://localhost:5002 im Browser öffnen
Thorsten-VITS
- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/vits
- http://localhost:5002 im Browser öffnen
Thorsten-Mimic3
Mimic3 ist die TTS Lösung von Mycroft AI, die auch performant auf Systemen mit kleiner Rechenleistung (bspw. Raspberry Pi) erzeugt werden kann. Dafür ist sie qualitativ den beiden anderen TTS-Modellen etwas unterlegen.
Informationen zum Download und Einrichtung sind hier zu finden.
Stimme per Webfront erzeugen
Hast Du die oberen Schritte gemacht rufe die Seite http://localhost:5002 mit deinem Browser auf und du solltest folgende Seite sehen.

Über dieses simple Webfrontend kannst Du Sätze erzeugen lassen und als Audiodatei abspeichern. Bitte beende jeden Text mit einem typischen Satzzeichen wie Punkt, Frage- oder Ausrufezeichen. Ansonsten kann es zu merkwürdigen Ergebnissen kommen.
Stimme mit cURL (API Get-Request) erzeugen
Das Webfrontend ist gut um testweise Sätze zu erzeugen und zu experimentieren. Wenn Du aber TTS in deinen Anwendungsfall einbauen willst bietet sich ein simpler API Aufruf an. Das kannst Du beispielsweise mit cURL machen.
curl -o ausgabe.wav http://localhost:5002/api/tts?text=Hallo.
Als Ergebnis bekommt ihr dann die gesprochene Ausgabe in ausgabe.wav.
Nutzung von cTTS für Python Integration
Wenn Du die Spracherzeugung in eine Python Anwendung integrieren möchtest, dann kannst Du mein cTTS Modul nutzen.
pip install ctts
Folgendes Python Code-Snipplet zeigt die Verwendung:
from ctts import cTTS
cTTS.synthesizeToFile("output.wav", "Das ist ein Test.")
Stimme per CLI erzeugen
tts --model_name tts_models/de/thorsten/tacotron2-DDC --out_path output.wav --text "Das ist ein Test."