Kategorien
Blabla

Hörproben neues „Thorsten“ Modell

Nachdem ich (erneut) Monate meiner Freizeit für Audioaufnahmen investiert habe (dieses Mal mit gutem Mikrofon und Aufnahmesetup) und Dominik seine „Audio-Magic“ angewendet hat ging es für uns beide richtig los.

Wir haben diverse Konfigurationen ausprobiert (und machen das auch aktuell noch). Dennoch möchten wir euch heute einen aktuellen Stand vorstellen.

  • > 12.000 mono Aufnahmen mit einer Samplerate von 22kHz
  • Trainiert mit Coqui TTS (0.5.0)
  • Tacotron2 DDC (TTS-Modell)
  • HifGAN (Vocoder) – vielen Dank an Olaf, der uns hier mit „Compute Power“ sehr unterstützt hat
  • Ganz viel Liebe 🙂

Natürlich kann auch dieses Modell offline erzeugt werden und steht kostenfrei unter der CC0 Lizenz frei zur Verfügung.

Und so klingt es derzeit

Informationen zu Berlin (Quelle: Wikipedia)

Es gibt noch keinen Zeitpunkt wann das Modell und das zugrundeliegende Dataset veröffentlicht werden, da die „Finetuning“ Arbeiten noch laufen. Allerdings sind wir dem Ziel näher als dem Anfang :-).

Über Feedback zum aktuellen Stand des Modells würden wir uns freuen. Entweder per Kontaktformular oder per eMail an tm@thorsten-voice.de.

Interested in Open Voice Technology? Take a look at my Youtube channel on that.
This is default text for notification bar