„Thorsten-Voice“ Voice Datasets (Open Source)

Was sind „Voice Datasets“

Diese Seite richtet sich primär an Wissenschaft, Forschung, Bildung und KI/AI, bzw. Machine Learning Enthusiasten. Die „Thorsten-Voice“ Voice Datasets stehen unter CC0 Lizenz zur Verfügung. Sie bestehen aus einer Kombination von:

  • WAVE-Audioaufnahmen einzelner Sätze
  • Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet

Das bekannteste Format ist das LJSpeech Format und dient im Bereich von TTS als de-facto Standard. Alle „Thorsten-Voice“ Voice Datasets stehen frei unter CC0 Lizenz in diesem Format zur Verfügung und eignen sich daher hervorragend für den Einsatz in der Wissenschaft.

CC0 Voice Datasets für Wissenschaft und Forschung

Wenn du auf Basis von KI/AI, bzw. künstlicher Intelligenz/Artificial Intelligence eigene TTS/Text-to-Speech Modelle trainieren möchtest dann kannst Du gerne meine Voice Datasets dafür verwenden.

Das ist gerade für Wissenschaft und Forschung spannend. Durch die offene CC0 Lizenz werden meine Voice Datasets schon von einigen Hochschulen und weiteren Bildungseinrichtungen aktiv verwendet.

Möchtest Du nur meine fertige Stimme verwenden, so brauchst Du die Voice Datasets nicht und kannst hier schauen.

Thorsten-Voice Logo zeigt die Internetseite des Projektes www.Thorsten-Voice.de auf einer blauen Audio Lautstärkekurve.

Übersicht von wissenschaftlichen Abhandlungen

Eine aktuelle Übersicht von wissenschaftlichen Abhandlungen, welche die Thorsten-Voice Sprachdatensätze verwenden gibt es auf Google Scholar und auf dem Thorsten-Voice Artikel beim Wikipedia Schwesterprojekt Marjorie-Wiki.

Thorsten-Voice Dataset 2021.02 (Neutral)

Anzahl Aufnahmen22.668
Audiodauer23+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Satzlänge (min/avg/max)2 / 52 / 180 Zeichen
Sprechgeschwindigkeit
(Durchschnitt)
14 Zeichen / Sekunde
Fragesätze2.780
Ausrufesätze1.840
Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“
Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“
Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-Voice Dataset 2021.06 (Emotional)

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

  • Neutral
  • Angewidert
  • Wütend
  • Amüsiert
  • Überrascht
  • Schläfrig
  • Flüsternd
  • Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen2.400
Samplerate
KanäleMono
Normalisierung-24dB
Satzlänge (min/max)59 / 148 Zeichen
Neutrale Aussprache – „Mist, wieder nichts geschafft.“
Angewiderte Aussprache – „Mist, wieder nichts geschafft.“
Wütende Aussprache – „Mist, wieder nichts geschafft.“
Amüsierte Aussprache – „Mist, wieder nichts geschafft.“
Überraschte Aussprache – „Mist, wieder nichts geschafft.“
Schläfrige Aussprache – „Mist, wieder nichts geschafft.“
Flüsternde Aussprache – „Mist, wieder nichts geschafft.“
Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-Voice Dataset 2022.10 (Neutral)

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde
@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-Voice Dataset 2023.09 (Hessisch)

Anzahl Aufnahmen2.108
Audiodauerca. 2 Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

 

Referenzen in wissenschaftlichen Abhandlungen

Wenn meine „Thorsten-Voice“ Voice Datasets im Rahmen von wissenschaftlichen Abhandlungen oder Papern verwendet werden freue ich mich sehr über eine entsprechende Referenzierung.

Love open voicetech?
This is default text for notification bar