Auf meinem „Thorsten-Voice“ Youtube Kanal gibt es jetzt Schritt-für-Schritt Anleitungen, wie Du meine freie, künstliche, Text-to-Speech Stimme in verschiedenen Betriebssystemen und Anwendungen verwenden kannst 🥳.
Kategorie: Blabla
Was gibt es neues.
Emotionen mit Thorsten-Voice?!
Ja, es stimmt! Thorsten-Voice kann auch emotional betonen. Möglich ist das Dank Mimic 3. Die folgenden Beispiele zeigen wie es klingt und das verlinkte Video zeigt Dir, wie du es bei Dir auf deinem Computer einrichten kannst.
Viel Vergnügen.
🗣️ Thorsten-Voice @ Huggingface
Auch wenn ich einige Audiobeispiele meiner künstlichen Stimme hier veröffentlicht habe, möchte man „meine“ Stimme vielleicht mit eigenen Texten ausprobieren.
Daher habe ich einen Huggingspace Bereich dafür eingerichtet. Also mit eigenen Texten im Browser direkt jetzt ausprobieren.
Das neue ThorstenVoice Dataset ist jetzt für den freien Download verfügbar 🥳. Genau, wie die vorherigen Datensätze ist auch dieses unter der CC0 Lizenz verfügbar, damit es von jedem frei verwendet werden kann.
Wenn Du das Dataset verwendest, dann bitte nutze die folgende DOI um es zu zitieren – Vielen Dank 😊.
DOI: 10.5281/zenodo.7265581
@dataset{muller_thorsten_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {ThorstenVoice Dataset 2022.10},
month = oct,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Die bereits verfügbaren „Thorsten“ Tacotron2 DDC und VITS TTS-Modelle basieren auf meinem offenen und kostenfreien Sprachdatensatz, welcher in wenigen Tagen veröffentlicht wird. Der Datensatz trägt den kreativen Namen „Thorsten-22.10„.
Hier einige Beispiele von Originalaufnahmen aus dem Sprachdatensatz:
Einige Angaben zum Sprachdatensatz „Thorsten-22.10“:
Anzahl Aufnahmen | 12.432 |
Audiodauer | 11+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
Hier einige Beispiele einer darauf trainierten künstlichen Stimme:
Ja, ja – schön und gut, aber wo kann ich es runterladen?
Noch einen Augenblick Gedult. Der Datensatz wird die nächsten Tage veröffentlicht und der Link hier, auf meinem Twitter Account (@ThorstenVoice) und auf meinem Youtube Kanal bekanntgegeben.
Neues „Thorsten“ TTS Modell verfügbar 🥳
Ihr habt abgestimmt und euch für „Variante 2“ entschieden. Das neue Modell ist seit heute per Coqui 🐸 TTS Version 0.8.0 direkt einsetzbar. Danke für eure Rückmeldungen und eure Unterstützung auf dem Weg zu diesem neuen Modell 😊.
Großer Dank gilt natürlich auch meinem mehrjährigen TTS-Weggefährten Dominik und allen weiteren TTS Enthusiasten 👏.
pip install TTS==0.8.0
tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
http://localhost:5002
Welches TTS-Modell klingt besser?
Ich bin langsam „betriebstaub“, daher brauche ich etwas hilfe von Dir. Aktuell habe ich zwei neue TTS Modelle trainiert, aber nur einer davon wird es in die Veröffentlichung schaffen.
Daher die Frage – welche Variante gefällt besser?
Variante 1
Variante 2
JAHRE der Passion für offene Sprachtechnologien,
MONATE Aufnahmesessions am Mikrofon,
WOCHEN Rechenzeit für das Modell Training,
TAGE für die Audio Optimierung,
STUNDEN der Verzweiflung.
All dies, für den EINEN MOMENT, die nächste Version der offenen, künstlichen, deutschen, offline-fähigen „Thorsten-Voice“ mit Euch zu teilen!
Die neue Version basiert auf einem komplett neu aufgenommen Sprachdatensatz (Thorsten-22.05-neutral).
Es wurde mit Coqui 🐸 TTS erstellt und es handelt sich um ein VITS Modell (nur als Info für die TTS-Insider).
tl;dr
- pip install tts==0.7.1
- tts-server --model_name tts_models/de/thorsten/vits
- Open webbrowser on http://localhost:5002

Jetzt wünschen wir euch viel Spaß
🗣️🎉😄
Dominik & Thorsten
Das neue Modell ist noch nicht verfügbar.
Gesprochen wird der Satz:
Dieser Satz dient als Vergleich zwischen dem bestehenden Thorsten Modell und dem Modell, welches aktuell noch erarbeitet wird.
Dominik und ich experimentieren weiterhin um die bestmögliche TTS-Konfiguration zu finden aber so klingt der aktuelle Stand mit Sätzen von Mycroft Skills.