TL;DR Auf meinem Youtube Kanal findest Du Schritt-für-Schritt Anleitungen, wie Du meine künstliche "Thorsten-Voice" verwenden kannst. Auf Microsoft Windows, Apple Mac OS X, Linux und u.a. in Home Assistant. Viel Spaß 😊 https://www.youtube.com/watch?v=vOAFyReDttk&list=PL19C7uchWZeqpSEffUcOMvyKgdxb7YjqL
Wenn Du das liest, möchtest Du bestimmt nicht wissen, wieviele Monate ich Texte vorgelesen habe, wie aufwendig Dominik die Aufnahmen optimiert hat und wie lange diverse CPUs und GPUs „geglüht“ haben um mit „machine learning“ ein TTS Modell bereitzustellen, oder?
Ihr wollt doch einfach nur die TTS-Stimme nutzen.
Probehören gefällig?
Hier sind einige Audiobeispiele wie meine künstliche Stimme klingt. Dann habt ihr einen Eindruck davon, bevor ihr weitermacht.
Selber ausprobieren
Du kannst meine Stimme mit Deinen eigenen Texten direkt im Browser ausprobieren. Dafür habe ich einen Bereich auf Huggingface erstellt.
https://huggingface.co/spaces/Thorsten-Voice/demo
Ein paar persönliche Worte
Bevor Du meine Stimme verwendest, nimm‘ Dir bitte einen kurzen Moment Zeit einige persönliche Worte von mir zu lesen.
Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.
Thorsten Müller (2020)
Auf meinem „Thorsten-Voice“ Youtube Kanal gibt es jetzt Schritt-für-Schritt Anleitungen, wie Du meine freie, künstliche, Text-to-Speech Stimme in verschiedenen Betriebssystemen und Anwendungen verwenden kannst 🥳.
Schritt-für-Schritt Video Anleitungen
Microsoft Windows
Probleme mit der betonung von umlauten unter windows?
Manchmal passiert es, dass Umlaute unter Windows nicht richtig betont werden. Das scheint ein Problem im Zusammenhang mit dem Hilfswerzeug „espeak-ng“ zu sein. Wenn du also espeak-ng verwendest und PROBLEME mit Umlauten hast, kannst Du folgendes probieren:
- Deinstalliere espeak-ng
- Lade espeak (also ohne -ng) herunter
- Entpacke espeak und lege die Datei espeak.exe in dein Windows Programmverzeichnis. Alternativ in jeden beliebigen Ordner. Dieser (Ordner) muss aber der „PATH“ Umgebungsvariable hinzugefügt werden.
Damit sollte meine künstliche Stimme auch deutsche Umlaute problemlos richtig betonen können 😊.
Linux
Apple Mac OS X
Raspberry Pi
Nutzung in Home Assistant
Welche Möglichkeiten stehen zur Verfügung
Es stehen aktuell drei unterschiedliche „Thorsten“ TTS Modelle zum einfachen und lokalen Nutzen bereit.
- Thorsten-DDC
- Thorsten-VITS
- Thorsten-Mimic3
Die ersten beiden Modelle wurde mit Coqui TTS trainiert und sind etwas ressourcenaufwendiger in der Erzeugung. Dafür haben sie eine höhere Qualität als die Thorsten-Mimic3 Stimme. Alles was Du brauchst um die Stimmerzeugung lokal zu betreiben ist eine Python 3.7+ Umgebung. Die beiden ersten Modelle haben eine leicht unterschiedliche Aussprache. Welches man bevorzugt ist „reine Geschmackssache“ – einfach ausprobieren und entscheiden :-).
Die Thorsten-Mimic3 Stimme wurde von Mycroft AI im Rahmen ihrer lokalen TTS Lösung Mimic3 bereitgestellt. Sie kann beispielsweise auch auf einem Raspberry Pi schnell generiert werden.
Thorsten-DDC
- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
- http://localhost:5002 im Browser öffnen
Thorsten-VITS
- pip install tts==0.8.0
- tts-server --model_name tts_models/de/thorsten/vits
- http://localhost:5002 im Browser öffnen
Thorsten-Mimic3
Mimic3 ist die TTS Lösung von Mycroft AI, die auch performant auf Systemen mit kleiner Rechenleistung (bspw. Raspberry Pi) erzeugt werden kann. Dafür ist sie qualitativ den beiden anderen TTS-Modellen etwas unterlegen.
Informationen zum Download und Einrichtung sind hier zu finden.
Stimme per Webfront erzeugen
Hast Du die oberen Schritte gemacht rufe die Seite http://localhost:5002 mit deinem Browser auf und du solltest folgende Seite sehen.

Über dieses simple Webfrontend kannst Du Sätze erzeugen lassen und als Audiodatei abspeichern. Bitte beende jeden Text mit einem typischen Satzzeichen wie Punkt, Frage- oder Ausrufezeichen. Ansonsten kann es zu merkwürdigen Ergebnissen kommen.
Stimme mit cURL (API Get-Request) erzeugen
Das Webfrontend ist gut um testweise Sätze zu erzeugen und zu experimentieren. Wenn Du aber TTS in deinen Anwendungsfall einbauen willst bietet sich ein simpler API Aufruf an. Das kannst Du beispielsweise mit cURL machen.
curl -o ausgabe.wav http://localhost:5002/api/tts?text=Hallo.
Als Ergebnis bekommt ihr dann die gesprochene Ausgabe in ausgabe.wav.
Nutzung von cTTS für Python Integration
Wenn Du die Spracherzeugung in eine Python Anwendung integrieren möchtest, dann kannst Du mein cTTS Modul nutzen.
pip install ctts
Folgendes Python Code-Snipplet zeigt die Verwendung:
from ctts import cTTS
cTTS.synthesizeToFile("output.wav", "Das ist ein Test.")
Stimme per CLI erzeugen
tts --model_name tts_models/de/thorsten/tacotron2-DDC --out_path output.wav --text "Das ist ein Test."
Emotionale Betonung von Thorsten-Voice
Kann Thorsten-Voice auch emotional klingen?
Ja, meine künstliche Stimme kann auch emotional klingen – auch wenn bei der Qualität noch Luft nach oben ist. Die folgenden Beispiele wurden mit Mimic 3 erzeugt.
In folgendem Video zeige ich euch, wie ihr Mimic 3 einrichtet und damit meine „emotionale“ Stimme auf eurem Computer lokal erzeugen könnt.