Datasets

Was ist ein „Dataset“

Ein Dataset, zumindest im Bereich von Sprachsynthese oder TTS (text-to-speech), ist eine Kombination von:

  • WAVE-Audioaufnahmen einzelner Sätze
  • Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet

Das bekannteste Format ist das LJSpeech Format und dient im Bereich von TTS als de-facto Standard. Alle „Thorsten“ Datasets stehen frei in diesem Format zur Verfügung.

Wofür brauche ich ein „Dataset“?

Das kommt drauf an. Möchtest Du nur mit dem verfügbaren TTS-Modell Texte sprechen? Ja? Dann ist die simple Antwort „gar nicht„.

Wenn Du allerdings auf Basis meiner Aufnahmen ein eigenes TTS-Modell trainieren möchtest und dabei gerne mit (gefühlt) 1.000 Parametern experimentieren möchtest? Dann ist eines oder beide meiner Datasets dafür eine gute Grundlage.

Bitte bedenkt, ich bin kein professioneller Sprecher, sondern nur ein Typ der seine Stimme spendet.

Daher bitte keine übertrieben hohe Erwartungshaltung 😉

Thorsten – 2022.10

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde
@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-21.02-neutral:

Anzahl Aufnahmen22.668
Audiodauer23+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Satzlänge (min/avg/max)2 / 52 / 180 Zeichen
Sprechgeschwindigkeit
(Durchschnitt)
14 Zeichen / Sekunde
Fragesätze2.780
Ausrufesätze1.840
Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“
Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“
Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-21.06-emotional:

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

  • Neutral
  • Angewidert
  • Wütend
  • Amüsiert
  • Überrascht
  • Schläfrig
  • Flüsternd
  • Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen2.400
Samplerate
KanäleMono
Normalisierung-24dB
Satzlänge (min/max)59 / 148 Zeichen
Neutrale Aussprache – „Mist, wieder nichts geschafft.“
Angewiderte Aussprache – „Mist, wieder nichts geschafft.“
Wütende Aussprache – „Mist, wieder nichts geschafft.“
Amüsierte Aussprache – „Mist, wieder nichts geschafft.“
Überraschte Aussprache – „Mist, wieder nichts geschafft.“
Schläfrige Aussprache – „Mist, wieder nichts geschafft.“
Flüsternde Aussprache – „Mist, wieder nichts geschafft.“
Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-22.05-neutral:

Dieses Dataset wird demnächst veröffentlicht.

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Satzlänge (min/avg/max)
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde

Downloadlink folgt nach Veröffentlichung.

Interested in free voice tech video tutorials?
This is default text for notification bar