Einfach loslegen mit freier deutscher Sprachausgabe

Wenn Du das liest, möchtest Du bestimmt nicht wissen, wieviele Monate ich Texte vorgelesen habe, wie aufwendig Dominik die Aufnahmen optimiert hat und wie lange diverse CPUs und GPUs „geglüht“ haben um mit „machine learning“ ein TTS Modell bereitzustellen, oder?

Ihr wollt doch einfach nur die TTS-Stimme nutzen.

Probehören gefällig?

Hier sind einige Audiobeispiele wie meine künstliche Stimme klingt. Dann habt ihr einen Eindruck davon, bevor ihr weitermacht.

„Dieses Beispiel wurde mit der künstlichen Thorsten Stimme erzeugt.“
„Für den heutigen Sonntag stehen keine Termine in deinem Kalender.“
„Über Rückmeldungen zu meiner freien T T S – Stimme bin ich dankbar.“

Ein paar persönliche Worte

Bevor Du meine Stimme verwendest, nimm‘ Dir bitte einen kurzen Moment Zeit einige persönliche Worte von mir zu lesen.

Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.

Thorsten Müller (2020)

Welche Möglichkeiten stehen zur Verfügung

Es stehen aktuell drei unterschiedliche „Thorsten“ TTS Modelle zum einfachen und lokalen Nutzen bereit.

  • Thorsten-DDC
  • Thorsten-VITS
  • Thorsten-Mimic3

Die ersten beiden Modelle wurde mit Coqui TTS trainiert und sind etwas ressourcenaufwendiger in der Erzeugung. Dafür haben sie eine höhere Qualität als die Thorsten-Mimic3 Stimme. Alles was Du brauchst um die Stimmerzeugung lokal zu betreiben ist eine Python 3.7+ Umgebung. Die beiden ersten Modelle haben eine leicht unterschiedliche Aussprache. Welches man bevorzugt ist „reine Geschmackssache“ – einfach ausprobieren und entscheiden :-).

Die Thorsten-Mimic3 Stimme wurde von Mycroft AI im Rahmen ihrer lokalen TTS Lösung Mimic3 bereitgestellt. Sie kann beispielsweise auch auf einem Raspberry Pi schnell generiert werden.

Thorsten-DDC

- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
- http://localhost:5002 im Browser öffnen

Thorsten-VITS

- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/vits
- http://localhost:5002 im Browser öffnen

Thorsten-Mimic3

Mimic3 ist die TTS Lösung von Mycroft AI, die auch performant auf Systemen mit kleiner Rechenleistung (bspw. Raspberry Pi) erzeugt werden kann. Dafür ist sie qualitativ den beiden anderen TTS-Modellen etwas unterlegen.

Informationen zum Download und Einrichtung sind hier zu finden.

Stimme per Webfront erzeugen

Hast Du die oberen Schritte gemacht rufe die Seite http://localhost:5002 mit deinem Browser auf und du solltest folgende Seite sehen.

Coqui TTS Server Webfrontend

Über dieses simple Webfrontend kannst Du Sätze erzeugen lassen und als Audiodatei abspeichern. Bitte beende jeden Text mit einem typischen Satzzeichen wie Punkt, Frage- oder Ausrufezeichen. Ansonsten kann es zu merkwürdigen Ergebnissen kommen.

Stimme mit cURL (API Get-Request) erzeugen

Das Webfrontend ist gut um testweise Sätze zu erzeugen und zu experimentieren. Wenn Du aber TTS in deinen Anwendungsfall einbauen willst bietet sich ein simpler API Aufruf an. Das kannst Du beispielsweise mit cURL machen.

curl -o ausgabe.wav http://localhost:5002/api/tts?text=Hallo.

Als Ergebnis bekommt ihr dann die gesprochene Ausgabe in ausgabe.wav.

Nutzung von cTTS für Python Integration

Wenn Du die Spracherzeugung in eine Python Anwendung integrieren möchtest, dann kannst Du mein cTTS Modul nutzen.

pip install ctts

Folgendes Python Code-Snipplet zeigt die Verwendung:

from ctts import cTTS

cTTS.synthesizeToFile("output.wav", "Das ist ein Test.")

Stimme per CLI erzeugen

tts --model_name tts_models/de/thorsten/tacotron2-DDC --out_path output.wav --text "Das ist ein Test."
Please subscribe to my Thorsten-Voice Youtube channel.
This is default text for notification bar