Dominik und ich experimentieren weiterhin um die bestmögliche TTS-Konfiguration zu finden aber so klingt der aktuelle Stand mit Sätzen von Mycroft Skills.
Kategorie: Blabla
Was gibt es neues.
Hörproben neues „Thorsten“ Modell
Nachdem ich (erneut) Monate meiner Freizeit für Audioaufnahmen investiert habe (dieses Mal mit gutem Mikrofon und Aufnahmesetup) und Dominik seine „Audio-Magic“ angewendet hat ging es für uns beide richtig los.
Wir haben diverse Konfigurationen ausprobiert (und machen das auch aktuell noch). Dennoch möchten wir euch heute einen aktuellen Stand vorstellen.
- > 12.000 mono Aufnahmen mit einer Samplerate von 22kHz
- Trainiert mit Coqui TTS (0.5.0)
- Tacotron2 DDC (TTS-Modell)
- HifGAN (Vocoder) – vielen Dank an Olaf, der uns hier mit „Compute Power“ sehr unterstützt hat
- Ganz viel Liebe 🙂
Natürlich kann auch dieses Modell offline erzeugt werden und steht kostenfrei unter der CC0 Lizenz frei zur Verfügung.
Und so klingt es derzeit
Es gibt noch keinen Zeitpunkt wann das Modell und das zugrundeliegende Dataset veröffentlicht werden, da die „Finetuning“ Arbeiten noch laufen. Allerdings sind wir dem Ziel näher als dem Anfang :-).
Über Feedback zum aktuellen Stand des Modells würden wir uns freuen. Entweder per Kontaktformular oder per eMail an tm@thorsten-voice.de.
Endspurt für neues „neutrales“ Dataset
Stimmt. Aber als ich das erste neutrale Dataset aufgenommen habe war ich etwas naiv. So habe ich beispielsweise die Aufnahmen mit einem schlechten Audio Setup begonnen. Das wurde zwar Dank Dominiks Audio-Optimierungsfähigkeiten verbessert, aber war trotzdem etwas ärgerlich. Außerdem wollte ich so klar und deutlich wie möglich lesen. Das ist mir zwar gelungen, aber dadurch ist der natürliche Sprachfluss etwas verloren gegangen. Basierend auf meinen Erfahrungen wollte ich ein „besseres“ neutrales Dataset aufnehmen.
Und wo ist dieses fabelhafte neue Dataset?
Noch in Arbeit.
Ich plane ca. 11 Stunden reines Audio im Dataset zu haben. Aktuell bin ich bei ca. 9 Stunden. Ich bin sicher einige Minuten fallen bestimmt auch der Nachbearbeitung zum Opfer. Also so Pi * Daumen noch gute 2 Stunden Audio fehlen – und da bin ich aktuell dran.
Ich hoffe, dass ich das neue Dataset dann Anfang 2022 veröffentlichen kann. Weitere Details dazu folgen zu gegebener Zeit.
Bis dahin dürft ihr euch gerne meine beiden bisheren Datasets anschauen, bzw. anhören:
Details zu den veröffentlichten Datasets findet ihr hier: https://www.thorsten-voice.de/datasets/
Wer meinen Werdegang rund um offene Sprachtechnologien verfolgt weiß – ich habe eine Leidenschaft für das Thema TTS oder auch „Text-to-Speech“.
Ob auf Github, Twitter oder meinem Youtube Kanal dreht sich alles um das Thema von freiem deutschen TTS – getreu dem Motto:
Nach einiger Überlegung geht heute meine Webseite zu dieser Leidenschaft online. Zugegeben, sie ist ist kein leuchtendes Beispiel beeindruckenden Webdesigns, aber das war auch nicht mein Ziel. Viel mehr hoffe ich, dass ich mit meinen Bemühungen um freies und offenes TTS „punkten“ kann.
Auf dieser Seite plane ich auch Neuigkeiten zu neuen „Datasets“ und neuen trainierten TTS-Modellen zu veröffentlichen.
Mehr Details zu meiner Stimme findest Du auf meiner Github Projektseite.