Kategorien
Blabla

Thorsten-Voice @ Webmontag Frankfurt

Ich durfte als Sprecher oder neudeutsch „Speaker“ beim 109ten Webmontag in Frankfurt am 08.05.2023 auftreten. Den Auftritt gibt’s zum Nachschauen auf Youtube.

Dort sprach ich über die Vorteile von freien, Open-Source künstlichen TTS-Stimmen und stelle Motivation und Ziele meines „Thorsten-Voice“ Projektes vor.

❤️ Dank an die Organisatoren vom Webmontag Frankfurt 😊.

Kategorien
Blabla

Emotionen mit Thorsten-Voice?!

Ja, es stimmt! Thorsten-Voice kann auch emotional betonen. Möglich ist das Dank Mimic 3. Die folgenden Beispiele zeigen wie es klingt und das verlinkte Video zeigt Dir, wie du es bei Dir auf deinem Computer einrichten kannst.

Viel Vergnügen.

😀: Ich kann auch gut gelaunt und fröhlich klingen.
😡: Ist eine wütende Stimme gewollt, so kann ich auch laut sein.
🤢: Manche Kinder widert Brokkoli ziemlich an.
🥴: Die Thorsten Stimme kann auch angetrunken sprechen.
🥱: Kurz vor dem zu Bett gehen, klingt die Stimme müde.
😴: Gerade Nachts ist eine flüsternde Stimme empfehlenswert.
Kategorien
Blabla

🗣️ Thorsten-Voice @ Huggingface

Auch wenn ich einige Audiobeispiele meiner künstlichen Stimme hier veröffentlicht habe, möchte man „meine“ Stimme vielleicht mit eigenen Texten ausprobieren.

Daher habe ich einen Huggingspace Bereich dafür eingerichtet. Also mit eigenen Texten im Browser direkt jetzt ausprobieren.

https://huggingface.co/spaces/Thorsten-Voice/demo

Kategorien
Blabla

ThorstenVoice-Dataset-2022.10 veröffentlicht 🎉

Das neue ThorstenVoice Dataset ist jetzt für den freien Download verfügbar 🥳. Genau, wie die vorherigen Datensätze ist auch dieses unter der CC0 Lizenz verfügbar, damit es von jedem frei verwendet werden kann.

Wenn Du das Dataset verwendest, dann bitte nutze die folgende DOI um es zu zitieren – Vielen Dank 😊.
DOI: 10.5281/zenodo.7265581

@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}
Kategorien
Blabla

Neuer Thorsten-Voice Sprachdatensatz (bald)

Die bereits verfügbaren „Thorsten“ Tacotron2 DDC und VITS TTS-Modelle basieren auf meinem offenen und kostenfreien Sprachdatensatz, welcher in wenigen Tagen veröffentlicht wird. Der Datensatz trägt den kreativen Namen „Thorsten-22.10„.

Hier einige Beispiele von Originalaufnahmen aus dem Sprachdatensatz:

Beispiel Originalaufnahme aus Sprachdatensatz 01
Beispiel Originalaufnahme aus Sprachdatensatz 02
Beispiel Originalaufnahme aus Sprachdatensatz 03
Beispiel Originalaufnahme aus Sprachdatensatz 04
Beispiel Originalaufnahme aus Sprachdatensatz 05

Einige Angaben zum Sprachdatensatz „Thorsten-22.10“:

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde

Hier einige Beispiele einer darauf trainierten künstlichen Stimme:

Thorsten – künstliche TTS Version Beispiel 1
Thorsten – künstliche TTS Version Beispiel 1
Thorsten – künstliche TTS Version Beispiel 3

Ja, ja – schön und gut, aber wo kann ich es runterladen?

Noch einen Augenblick Gedult. Der Datensatz wird die nächsten Tage veröffentlicht und der Link hier, auf meinem Twitter Account (@ThorstenVoice) und auf meinem Youtube Kanal bekanntgegeben.

Kategorien
Blabla

Neues „Thorsten“ TTS Modell verfügbar 🥳

Ihr habt abgestimmt und euch für „Variante 2“ entschieden. Das neue Modell ist seit heute per Coqui 🐸 TTS Version 0.8.0 direkt einsetzbar. Danke für eure Rückmeldungen und eure Unterstützung auf dem Weg zu diesem neuen Modell 😊.

Großer Dank gilt natürlich auch meinem mehrjährigen TTS-Weggefährten Dominik und allen weiteren TTS Enthusiasten 👏.

pip install TTS==0.8.0
tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
http://localhost:5002
Kategorien
Blabla

Welches TTS-Modell klingt besser?

Ich bin langsam „betriebstaub“, daher brauche ich etwas hilfe von Dir. Aktuell habe ich zwei neue TTS Modelle trainiert, aber nur einer davon wird es in die Veröffentlichung schaffen.

Daher die Frage – welche Variante gefällt besser?

Variante 1

In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön; aber die jüngste war so schön, daß die Sonne selber, die doch so vieles gesehen hat, sich verwunderte, sooft sie ihr ins Gesicht schien. (Quelle: Der Froschkönig)
Heute ist Sonntag, der vierzehnte August. Die aktuelle Außentemperatur ist einfach nur sehr hoch. Am besten hilft heute ein kühles und leckeres Eis.
Russland will nach britischer Einschätzung seine Truppen in der Südukraine verstärken. Frankreichs Präsident Macron hat das Ratifizierungsprotokoll für den NATO-Beitritt Finnlands und Schwedens unterzeichnet. Die Entwicklungen im Liveblog. (Quelle: Tagesschau)
Das weiß ich nicht, aber ich lerne jeden Tag neue Dinge.

Variante 2

In den alten Zeiten, wo das Wünschen noch geholfen hat, lebte ein König, dessen Töchter waren alle schön; aber die jüngste war so schön, daß die Sonne selber, die doch so vieles gesehen hat, sich verwunderte, sooft sie ihr ins Gesicht schien. (Quelle: Der Froschkönig)
Heute ist Sonntag, der vierzehnte August. Die aktuelle Außentemperatur ist einfach nur sehr hoch. Am besten hilft heute ein kühles und leckeres Eis.
Russland will nach britischer Einschätzung seine Truppen in der Südukraine verstärken. Frankreichs Präsident Macron hat das Ratifizierungsprotokoll für den NATO-Beitritt Finnlands und Schwedens unterzeichnet. Die Entwicklungen im Liveblog. (Quelle: Tagesschau)
Das weiß ich nicht, aber ich lerne jeden Tag neue Dinge.

This poll is no longer accepting votes

Welche "Thorsten" TTS Variante gefällt Dir besser?
Abstimmen
Kategorien
Blabla

Thorsten-Voice als Fallbeispiel: Neuer Artikel auf Golem.de zur Erstellung eigener TTS-Stimmen

Im Artikel „Die eigene Stimme als TTS-Modell“ von Golem.de wird der Ablauf zur Erzeugung einer eigenen TTS-Stimme beschrieben. Als Vorlage dient die Erzeugung meiner Thorsten-Voice Stimme. Ich möchte diese Gelegenheit nutzen, um tiefer in meine persönlichen Erfahrungen einzutauchen und einige Einblicke zu teilen, die im ursprünglichen Artikel nicht enthalten waren.

Der Anstoß

Meine Faszination für Text-to-Speech (TTS) Technologie begann schon vor einiger Zeit. Als ich von der Möglichkeit hörte, eine eigene, personalisierte Stimme zu erstellen, war ich sofort Feuer und Flamme. Der Gedanke, dass meine eigene Stimme digitalisiert und für verschiedene Anwendungen genutzt werden könnte, war gleichermaßen aufregend wie herausfordernd.

Der Prozess

Der Weg zur Thorsten-Voice war keineswegs einfach. Es begann mit stundenlangen Aufnahmesessions, in denen ich zahlreiche Sätze und Phrasen einsprach. Die Herausforderung bestand darin, konsistent zu bleiben – in Tonlage, Geschwindigkeit und Aussprache. Oft musste ich Passagen wiederholen, weil sich ein Räuspern eingeschlichen hatte oder die Betonung nicht stimmte.

Nach den Aufnahmen folgte die technische Verarbeitung. Hier zeigte sich, wie komplex die Erstellung eines TTS-Modells tatsächlich ist. Das Training des Modells nahm mehrere Tage in Anspruch, währenddessen mein Computer ununterbrochen arbeitete.

Fazit

Die Erstellung der Thorsten-Voice war eine lehrreiche und spannende Erfahrung. Sie hat mir nicht nur technisches Wissen vermittelt, sondern auch einen neuen Blick auf die Einzigartigkeit der menschlichen Stimme gegeben. Ich kann jeden, der sich für TTS-Technologie interessiert, nur ermutigen, sich an einem solchen Projekt zu versuchen. Es ist faszinierend, herausfordernd und überaus lohnend.

Kategorien
Blabla

🗣️ Neue Version der Deutschen „Thorsten“ TTS Stimme veröffentlicht 🎉

JAHRE der Passion für offene Sprachtechnologien,
MONATE Aufnahmesessions am Mikrofon,
WOCHEN Rechenzeit für das Modell Training,
TAGE für die Audio Optimierung,
STUNDEN der Verzweiflung.

All dies, für den EINEN MOMENT, die nächste Version der offenen, künstlichen, deutschen, offline-fähigen „Thorsten-Voice“ mit Euch zu teilen!

Die neue Version basiert auf einem komplett neu aufgenommen Sprachdatensatz (Thorsten-22.05-neutral).

Es wurde mit Coqui 🐸 TTS erstellt und es handelt sich um ein VITS Modell (nur als Info für die TTS-Insider).

tl;dr

- pip install tts==0.7.1
- tts-server --model_name tts_models/de/thorsten/vits
- Open webbrowser on http://localhost:5002

Jetzt wünschen wir euch viel Spaß
🗣️🎉😄

Dominik & Thorsten

Kategorien
Blabla

Vergleich „Thorsten“ aktuell mit dem neuen Modell

Das neue Modell ist noch nicht verfügbar.

Gesprochen wird der Satz:

Dieser Satz dient als Vergleich zwischen dem bestehenden Thorsten Modell und dem Modell, welches aktuell noch erarbeitet wird.

Aktuelles Thorsten Modell (Tacotron2 DCA + Fullband MelGAN Vocoder)
Work-in-progress Thorsten Modell (Tacotron2 DDC + HifiGAN)
Love open voicetech?
This is default text for notification bar