Guude 👋! It’s hard to believe: I started Thorsten-Voice and its YouTube channel as a small niche project for open-source voice tech enthusiasts.
Back then, the idea was simple. Donate my own voice and make it freely available as an open dataset for TTS (text-to-speech). I never could have imagined that today, only a few years later, the Thorsten-Voice YouTube channel would reach 10,000 subscribers – a community of people passionate about voice technology, open source TTS models, speech synthesis and voice cloning.
On the channel, you’ll find tutorials, dataset creation guides, training experiments, and reviews of the latest AI voice models. This milestone is only possible because of you: your comments, your feedback, and your curiosity for free and open speech technology.
🙏 A huge THANK YOU to all 10,000 of you voice tech enthusiasts!
And the journey doesn’t stop here. New stuff is already on the way. Together, we’ll keep making voice technology open, accessible, and free for everyone. 🌍💡
Am 17. August 2025 erschien auf SPIEGEL Online (Netzwelt) ein Artikel über Thorsten Müller und sein Thorsten-Voice Projekt mit dem Titel:„Der Mann, der seine Stimme verschenkte“.
Der Beitrag von Annika Schultz beleuchtet die Entstehungsgeschichte des Projekts, die Motivation hinter der Stimmspende und die Bedeutung von offenen Sprachmodellen für digitale Souveränität, Barrierefreiheit und Forschung.
Ich freue mich riesig, mein Herzensthema in der aktuellen Ausgabe des entwickler.de / #MLCon Magazins teilen zu dürfen: freie, lokal nutzbare TTS-Sprachmodelle in Deutsch – ganz ohne Cloud-Zwang! 🚀
Als Gründer von Thorsten-Voice ist es super zu sehen, wie das Interesse an verständlicher, nachvollziehbarer und unabhängiger KI-Sprachausgabe wächst. Im Artikel zeige ich, wie ihr mit Open-Source-Tools (bspw. Piper) hochwertige TTS-Lösungen lokal betreiben könnt – ideal für Assistenzsysteme, barrierefreie Anwendungen oder das eigene Smart Home.
Ein riesiges Dankeschön an das gesamte Team von entwickler.de und besonders an Niklas Horlebein für die tolle Möglichkeit und die Unterstützung, diesen Artikel zu schreiben! 🙏
Ob Sprachassistenten, Vorlesefunktionen im Zuge der Barrierefreiheit oder Content für Social Media – immer häufiger kommen synthetische KI-Stimmen (Text-to-Speech) zum Einsatz. Doch die meisten dieser Technologien stammen von großen Konzernen aus den USA oder China. Sie sind meist proprietär, intransparent – und machen uns abhängig von Diensten, die sich jederzeit ändern, abgeschaltet oder kostenpflichtig werden können.
Das Thorsten-Voice-Projekt setzt bewusst einen anderen Akzent.
Digitale Souveränität beginnt bei der Stimme
Wer Sprachsynthese nutzt, sollte frei entscheiden können, wie und wo sie eingesetzt wird – und wem man dabei vertraut. Thorsten-Voice bietet genau das: eine hochwertige, deutschsprachige KI-Stimme, die vollständig Open Source, uneingeschränkt nutzbar und kostenfrei verfügbar ist. Ohne Registrierung, ohne Lizenzbindung, ohne Cloud-Zwang.
Die Stimme „Thorsten“ kann lokal genutzt, weiterentwickelt oder in eigene Projekte integriert werden – ob als Vorlesestimme, für Lernplattformen, im Bildungsbereich, in der Forschung, in der Verwaltung (gerade auch im Zuge der Verwaltungsdigitalisierung ein Thema) oder für inklusive Anwendungen.
Technologie muss nicht exklusiv, teuer oder intransparent sein. Thorsten-Voice zeigt, dass hochwertige Sprachsynthese auch frei und offen sein kann – für alle.
Ich freue mich sehr – und bin ehrlich dankbar –, dass das Thorsten-Voice-Projekt in den vergangenen Monaten in verschiedenen Medien aufgegriffen wurde. Von Fachzeitschriften über Blogs bis hin zur Tagespresse: Die Resonanz zeigt, dass das Interesse an freier Sprachsynthese und digitaler Souveränität wächst – und das motiviert mich enorm, den Weg weiterzugehen.
👉 Auf der überarbeiteten Medienseite findest du jetzt eine übersichtliche Liste aller bisherigen Beiträge – inklusive Links zu Artikeln, Podcasts und Printberichten.
Ich habe die Aktualisierung auch auf LinkedIn geteilt – vielleicht magst du reinschauen oder den Beitrag weiterleiten.
Bei Interesse an Interviews, Berichten oder allgemeinen Fragen zu Thorsten-Voice freue ich mich jederzeit über eine Nachricht per Kontaktformular. Insbesondere, wenn es um digitale Souveränität im Bereich hochwertiger Sprachausgabe geht, bin ich offen für Austausch!
Da Coqui AI bereits Anfang 2024 geschlossen hat, wird ihre Open Source TTS Lösung Coqui TTS im entsprechenden Github Projekt nicht weiter gepflegt 😥. Dies zeigt sich jetzt bei der Abhängigkeit zur Python Version. So funktioniert das offizielle Coqui TTS Paket nur bis Python Version 3.11. Schon ab 3.12 lässt sich das Paket nicht mehr installieren.
Glücklicherweise gibt es einen Fork bei Github, welches die Lauffähigkeit auch bei neuerem Python Versionen ermöglicht 🥳.
Ich habe die Dokumentation entsprechend angepasst und hoffe, dass meine Thorsten-Voice Coqui Modelle so noch einige Zeit funktionieren werden.
Mittelfristig kann ich aber einen Wechsel zu meinen Piper TTS Modellen empfehlen. Die gibt es nicht nur in …
Hochdeutsch
sondern auch in emotionaler Betonung
und in charmantem südhessischen Dialekt
Ich wünsche euch ganz viel Spaß mit meinen „Thorsten-Voice’s“ 😊
Ich fühle mich geehrt, dass die Wetterauer-Zeitung, die Frankfurter Neue Presse sowie die Frankfurter Rundschau einen Artikel über mein Thorsten-Voice Projekt veröffentlicht haben.
Transform your Text-to-Speech output from robotic to natural-sounding with proper text preprocessing (cleaning / normalization). My Youtube step-by-step tutorial shows you how to handle numbers, abbreviations, and special characters to significantly improve your TTS quality. This works for ANY TTS, not just fancy AI based text-to-speech models, but espeak / mbrola, too.
Video Tutorial
Why Text Cleaning Matters
When feeding text into a TTS system, certain elements can cause unnatural speech patterns:
Abbreviations like „Dr.“ or „Mr.“ are interpreted as sentence endings
Numbers are read digit by digit instead of naturally
Special characters and symbols may cause unexpected pauses
Time formats and dates might be misinterpreted
„Bad“ text input to TTS: „Dr. Smith paid $1,234 for 2 items at 3pm after waiting outside at 72°F on may, 15th, 2024. While waiting for the train to arrive at 15:45 he called a support hotline at 1-800-555-0123.„
Text NOT cleaned / normalized and spoken with Piper TTS.
This is hard for most TTS systems, because it contains lots of special characters that are hard to pronounce correctly for TTS.
„Better“ text input keeping the same sentence: „Doctor Smith paid one thousand two hundred thirty-four dollars for two items at three p m after waiting outside at seventy-two degrees Fahrenheit on May fifteenth, twenty twenty-four. While waiting for the train to arrive at fifteen forty-five he called a support hotline at one eight hundred five five five zero one two three.„
Text CLEANED / NORMALIZED and spoken with Piper TTS.
The Solution: Text Preprocessing
Below you’ll find a Python script that handles common text cleaning tasks. It works with any TTS system, including Piper, Coqui, eSpeak, and others.
Features:
Converts numbers to words (e.g., „123“ → „one hundred twenty-three“)