Was ist ein „Dataset“
Ein Dataset, zumindest im Bereich von Sprachsynthese oder TTS (text-to-speech), ist eine Kombination von:
- WAVE-Audioaufnahmen einzelner Sätze
- Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet
Das bekannteste Format ist das LJSpeech Format und dient im Bereich von TTS als de-facto Standard. Alle „Thorsten“ Datasets stehen frei in diesem Format zur Verfügung.
Wofür brauche ich ein „Dataset“?
Das kommt drauf an. Möchtest Du nur mit dem verfügbaren TTS-Modell Texte sprechen? Ja? Dann ist die simple Antwort „gar nicht„.
Wenn Du allerdings auf Basis meiner Aufnahmen ein eigenes TTS-Modell trainieren möchtest und dabei gerne mit (gefühlt) 1.000 Parametern experimentieren möchtest? Dann ist eines oder beide meiner Datasets dafür eine gute Grundlage.
Bitte bedenkt, ich bin kein professioneller Sprecher, sondern nur ein Typ der seine Stimme spendet.
Daher bitte keine übertrieben hohe Erwartungshaltung 😉
Thorsten – 2022.10
Anzahl Aufnahmen | 12.432 |
Audiodauer | 11+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
@dataset{muller_thorsten_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {ThorstenVoice Dataset 2022.10},
month = oct,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Hier gibt’s mein Releasevideo zum neuen Dataset.
Mehr Infos und Download: https://zenodo.org/record/7265581
Thorsten-21.02-neutral:
Anzahl Aufnahmen | 22.668 |
Audiodauer | 23+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/avg/max) | 2 / 52 / 180 Zeichen |
Sprechgeschwindigkeit (Durchschnitt) | 14 Zeichen / Sekunde |
Fragesätze | 2.780 |
Ausrufesätze | 1.840 |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_thorsten_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Neutral) Dataset},
month = feb,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Thorsten-21.06-emotional:
Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.
- Neutral
- Angewidert
- Wütend
- Amüsiert
- Überrascht
- Schläfrig
- Flüsternd
- Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen | 2.400 |
Samplerate | |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/max) | 59 / 148 Zeichen |
Download: https://zenodo.org/record/5525023
@dataset{muller_thorsten_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Emotional) Dataset},
month = jun,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Thorsten-22.05-neutral:
Dieses Dataset wird demnächst veröffentlicht.
Anzahl Aufnahmen | 12.432 |
Audiodauer | 11+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/avg/max) | |
Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
Downloadlink folgt nach Veröffentlichung.