Nachdem ich (erneut) Monate meiner Freizeit für Audioaufnahmen investiert habe (dieses Mal mit gutem Mikrofon und Aufnahmesetup) und Dominik seine „Audio-Magic“ angewendet hat ging es für uns beide richtig los.
Wir haben diverse Konfigurationen ausprobiert (und machen das auch aktuell noch). Dennoch möchten wir euch heute einen aktuellen Stand vorstellen.
- > 12.000 mono Aufnahmen mit einer Samplerate von 22kHz
- Trainiert mit Coqui TTS (0.5.0)
- Tacotron2 DDC (TTS-Modell)
- HifGAN (Vocoder) – vielen Dank an Olaf, der uns hier mit „Compute Power“ sehr unterstützt hat
- Ganz viel Liebe 🙂
Natürlich kann auch dieses Modell offline erzeugt werden und steht kostenfrei unter der CC0 Lizenz frei zur Verfügung.
Und so klingt es derzeit
Es gibt noch keinen Zeitpunkt wann das Modell und das zugrundeliegende Dataset veröffentlicht werden, da die „Finetuning“ Arbeiten noch laufen. Allerdings sind wir dem Ziel näher als dem Anfang :-).
Über Feedback zum aktuellen Stand des Modells würden wir uns freuen. Entweder per Kontaktformular oder per eMail an tm@thorsten-voice.de.