Was sind „Voice Datasets“
Diese Seite richtet sich primär an Wissenschaft, Forschung, Bildung und KI/AI, bzw. Machine Learning Enthusiasten. Die „Thorsten-Voice“ Voice Datasets stehen unter CC0 Lizenz zur Verfügung. Sie bestehen aus einer Kombination von:
- WAVE-Audioaufnahmen einzelner Sätze
- Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet
Das bekannteste Format ist das LJSpeech Format und dient im Bereich von TTS als de-facto Standard. Alle „Thorsten-Voice“ Voice Datasets stehen frei unter CC0 Lizenz in diesem Format zur Verfügung und eignen sich daher hervorragend für den Einsatz in der Wissenschaft.
CC0 Voice Datasets für Wissenschaft und Forschung
Wenn du auf Basis von KI/AI, bzw. künstlicher Intelligenz/Artificial Intelligence eigene TTS/Text-to-Speech Modelle trainieren möchtest dann kannst Du gerne meine Voice Datasets dafür verwenden.
Das ist gerade für Wissenschaft und Forschung spannend. Durch die offene CC0 Lizenz werden meine Voice Datasets schon von einigen Hochschulen und weiteren Bildungseinrichtungen aktiv verwendet.
Möchtest Du nur meine fertige Stimme verwenden, so brauchst Du die Voice Datasets nicht und kannst hier schauen.
Übersicht von wissenschaftlichen Abhandlungen
Eine aktuelle Übersicht von wissenschaftlichen Abhandlungen, welche die Thorsten-Voice Sprachdatensätze verwenden gibt es auf Google Scholar und auf dem Thorsten-Voice Artikel beim Wikipedia Schwesterprojekt Marjorie-Wiki.
Thorsten-Voice Dataset 2021.02 (Neutral)
Anzahl Aufnahmen | 22.668 |
Audiodauer | 23+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/avg/max) | 2 / 52 / 180 Zeichen |
Sprechgeschwindigkeit (Durchschnitt) | 14 Zeichen / Sekunde |
Fragesätze | 2.780 |
Ausrufesätze | 1.840 |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_thorsten_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Neutral) Dataset},
month = feb,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Thorsten-Voice Dataset 2021.06 (Emotional)
Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.
- Neutral
- Angewidert
- Wütend
- Amüsiert
- Überrascht
- Schläfrig
- Flüsternd
- Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen | 2.400 |
Samplerate | |
Kanäle | Mono |
Normalisierung | -24dB |
Satzlänge (min/max) | 59 / 148 Zeichen |
Download: https://zenodo.org/record/5525023
@dataset{muller_thorsten_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Emotional) Dataset},
month = jun,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Thorsten-Voice Dataset 2022.10 (Neutral)
Anzahl Aufnahmen | 12.432 |
Audiodauer | 11+ Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
@dataset{muller_thorsten_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {ThorstenVoice Dataset 2022.10},
month = oct,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Hier gibt’s mein Releasevideo zum neuen Dataset.
Mehr Infos und Download: https://zenodo.org/record/7265581
Thorsten-Voice Dataset 2023.09 (Hessisch)
Anzahl Aufnahmen | 2.108 |
Audiodauer | ca. 2 Stunden |
Samplerate | 22.050Hz |
Kanäle | Mono |
Normalisierung | -24dB |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2023.09 Hessisch},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Referenzen in wissenschaftlichen Abhandlungen
Wenn meine „Thorsten-Voice“ Voice Datasets im Rahmen von wissenschaftlichen Abhandlungen oder Papern verwendet werden freue ich mich sehr über eine entsprechende Referenzierung.