Freie Sprachdatensätze für TTS, Forschung & Wissenschaft

Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.

Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgenden im weiteren Verlauf der Seite. Sprachdatensätze, auch bekannt als „Voice Datasets“ bestehen aus einer Kombination von:

WAVE-Audioaufnahmen einzelner Sätze.
Einer CSV Datei welche die gesprochenen Texte der Audiodatei zuordnet.

Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.

Universitäten und Forschungseinrichtungen rund um den Globus verwenden meine Thorsten-Voice Sprachdatensätze in ihren Forschungen und wissenschaftlichen Abhandlungen.

Die folgende Liste zeigt einige der Forschungsarbeiten, welche meine Sprachdatensätze verwenden.

Veröffentlichungsdatum	Hochschule	Titel
11.06.2021	Hochschule Hof	Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache
15.10.2021	Universität Augsburg (Institut für Software & Systems Engineering)	Scribosermo: Fast Speech-to-Text models for German and other Languages
31.10.2021	Buch Springer Verlag (ISBN 978-3030876258)	KI 2021: Advances in Artificial Intelligence
22.04.2022	Universität Maastricht	LibriS2S: A German-English Speech-to-Speech Translation Corpus
05.06.2022	Yıldız Technical Universit	Is it possible to train a Turkish text-to-speech model with English data?
24.06.2022	Universität Stuttgart	Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech
15.07.2022	IEEE Engineering in Medicine & Biology Society	Language-Independent Sleepy Speech Detection
17.07.2022	Hochschule Hof	Neural Speech Synthesis in German
18.10.2022	Universität Stuttgart	PoeticTTS – Controllable Poetry Reading for Literary Studies
21.10.2022	Universität Stuttgart	Low-Resource Multilingual and Zero-Shot Multispeaker TTS
08.11.2022	University of Seoul, University of Southern California	Exploring the Community of Model Publishers on TensorFlow Hub
27.01.2023	Universität Stuttgart	Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech
27.04.2023	Universität Magdeburg	CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS
03.05.2023	Hochschule Hof	ASR Bundestag: A Large-Scale political debate dataset in German
03.07.2023	Adıyaman-Universität, Technische Universität Ostim, Gazi-Universität	Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama
11.09.2023	Gesellschaft für Informatik, Bonn	Shared listening experience for hyperaudio textbooks
11.10.2023	MIT, TTIC, UT Austin, UC Santa Barbara, MIT-IBM Watson AI Lab	Audio-Visual Neural Syntax Acquisition
14.01.2024	Hochschule Hof	Automatic Speech Recognition in German: A Detailed Error Analysis
17.01.2024	Fraunhofer Institut	MLAAD: The Multi-Language Audio Anti-Spoofing Dataset
20.02.2024	University of Texas at Austin	Textless Low-Resource Speech-to-Speech Translation With Unit Language Models
14.04.2024	POSTECH, Republic of Korea	Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation
25.04.2024	Universitat Politècnica de Catalunya, Barcelona, Spanien	SpeechAlign: a Framework for Speech Translation Alignment Evaluation
19.06.2024	TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO	Learning Language Structures through Grounding
14.08.2024	Virginia Commonwealth University	SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition
06.10.2024	University of Bucharest	A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition
29.11.2024	Virginia Commonwealth University	BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION

Thorsten-Voice Dataset 2021.02 (Neutral)

Anzahl Aufnahmen	22.668
Audiodauer	23+ Stunden
Samplerate	22.050Hz
Kanäle	Mono
Normalisierung	-24dB
Satzlänge (min/avg/max)	2 / 52 / 180 Zeichen
Sprechgeschwindigkeit (Durchschnitt)	14 Zeichen / Sekunde
Fragesätze	2.780
Ausrufesätze	1.840

Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“

Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“

Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-Voice Dataset 2021.06 (Emotional)

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

Neutral
Angewidert
Wütend
Amüsiert
Überrascht
Schläfrig
Flüsternd
Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)

Anzahl Aufnahmen	2.400
Samplerate
Kanäle	Mono
Normalisierung	-24dB
Satzlänge (min/max)	59 / 148 Zeichen

Neutrale Aussprache – „Mist, wieder nichts geschafft.“

Angewiderte Aussprache – „Mist, wieder nichts geschafft.“

Wütende Aussprache – „Mist, wieder nichts geschafft.“

Amüsierte Aussprache – „Mist, wieder nichts geschafft.“

Überraschte Aussprache – „Mist, wieder nichts geschafft.“

Schläfrige Aussprache – „Mist, wieder nichts geschafft.“

Flüsternde Aussprache – „Mist, wieder nichts geschafft.“

Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-Voice Dataset 2022.10 (Neutral)

Anzahl Aufnahmen	12.432
Audiodauer	11+ Stunden
Samplerate	22.050Hz
Kanäle	Mono
Normalisierung	-24dB
Sprechgeschwindigkeit (Durchschnitt)	17,5 Zeichen / Sekunde

@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-Voice Dataset 2023.09 (Hessisch)

Anzahl Aufnahmen	2.108
Audiodauer	ca. 2 Stunden
Samplerate	22.050Hz
Kanäle	Mono
Normalisierung	-24dB

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/55 25342

@dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

Thorsten-Voice Dataset
(TV-44kHz-Full)

Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:

ALLE AUFNAHMEN in einem Dataset
Aufnahmen in der original Samplerate von 44kHz
Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
Dauert pro Aufnahme
Sprechgeschwindigkeit
Monat der Aufnahme
Qualität der Aufnahme

@misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}

Thorsten-Voice Dataset 2021.02 (Neutral)

Thorsten-Voice Dataset 2021.06 (Emotional)

Thorsten-Voice Dataset 2022.10 (Neutral)

Thorsten-Voice Dataset 2023.09 (Hessisch)

Thorsten-Voice Dataset(TV-44kHz-Full)

Thorsten-Voice Dataset
(TV-44kHz-Full)