Stimmt. Aber als ich das erste neutrale Dataset aufgenommen habe war ich etwas naiv. So habe ich beispielsweise die Aufnahmen mit einem schlechten Audio Setup begonnen. Das wurde zwar Dank Dominiks Audio-Optimierungsfähigkeiten verbessert, aber war trotzdem etwas ärgerlich. Außerdem wollte ich so klar und deutlich wie möglich lesen. Das ist mir zwar gelungen, aber dadurch ist der natürliche Sprachfluss etwas verloren gegangen. Basierend auf meinen Erfahrungen wollte ich ein „besseres“ neutrales Dataset aufnehmen.
Und wo ist dieses fabelhafte neue Dataset?
Noch in Arbeit.
Ich plane ca. 11 Stunden reines Audio im Dataset zu haben. Aktuell bin ich bei ca. 9 Stunden. Ich bin sicher einige Minuten fallen bestimmt auch der Nachbearbeitung zum Opfer. Also so Pi * Daumen noch gute 2 Stunden Audio fehlen – und da bin ich aktuell dran.
Ich hoffe, dass ich das neue Dataset dann Anfang 2022 veröffentlichen kann. Weitere Details dazu folgen zu gegebener Zeit.
Bis dahin dürft ihr euch gerne meine beiden bisheren Datasets anschauen, bzw. anhören:
Details zu den veröffentlichten Datasets findet ihr hier: https://www.thorsten-voice.de/datasets/