Einsatz in Wissenschaft & Forschung
Die Thorsten-Voice Sprachdatensätze werden mittlerweile in über 20 wissenschaftlichen Abhandlungen von internationalen Forschungseinrichtungen verwendet.

- 11.06.2021: Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache (Link)
- 17.07.2022: Neural Speech Synthesis in German (Link)
- 03.05.2023: ASR Bundestag: A Large-Scale political debate dataset in German (Link)
- 14.01.2024: Automatic Speech Recognition in German: A Detailed Error Analysis (Link)

- 24.06.2022: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
- 18.10.2022: PoeticTTS – Controllable Poetry Reading for Literary Studies (Link)
- 21.10.2022: Low-Resource Multilingual and Zero-Shot Multispeaker TTS (Link)
- 27.01.2023: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)

27.04.2023: CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS (Link)

- 22.04.2022: LibriS2S: A German-English Speech-to-Speech Translation Corpus (Link)
Weitere Hochschulen

17.01.2024: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset (Link)
Thorsten Müller ist hier Co-Autor.

11.09.2023: Shared listening experience for hyperaudio textbooks (Link)

15.10.2021: Scribosermo: Fast Speech-to-Text models for German and other Languages (Link)

IEEE Engineering in Medicine & Biology Society
15.07.20222: Language-Independent Sleepy Speech Detection (Link)

08.11.2022: Exploring the Community of Model Publishers on TensorFlow Hub (Link)

05.06.2022: Is it possible to train a Turkish text-to-speech model with English data? (Link)

Adıyaman-Universität
03.07.2023: Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama (Preparing a Balanced Dataset for the Development of Turkish TTS Systems) (Link)

11.10.2023: Audio-Visual Neural Syntax Acquisition (Link)

20.02.2024: Textless Low-Resource Speech-to-Speech Translation With Unit Language Models (Link)

25.04.2024: SpeechAlign: a Framework for Speech Translation Alignment Evaluation (Link)

TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO
19.06.2024: Learning Language Structures through Grounding (Link)


06.10.2024: A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition (Link)

POSTECH, Republic of Korea
14.04.2024: Leveraging the Interplay Between
Syntactic and Acoustic Cues for Optimizing
Korean TTS Pause Formation (Link)
Die Abhandlung „Automatische Optimierung von Audiosignalen für Transkription mit Evolutionären Algorithmen und Machine Learning“ beschäftigt sich mit Sprachtechnologie im Gesundheitssektor (Link)
Thorsten-Voice wird in der wissenschaftlichen Publikation Popular Voices: Computational Analysis of Poetry and Song (HAL Open Science, 2026) als Beispiel verwendet. (Link)
Thorsten-Voice Sprachdatensätze
Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.
Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgen im weiteren Verlauf der Seite.
Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.
Thorsten-Voice Dataset 2021.02 (Neutral)
| Anzahl Aufnahmen | 22.668 |
| Audiodauer | 23+ Stunden |
| Samplerate | 22.050Hz |
| Kanäle | Mono |
| Normalisierung | -24dB |
| Satzlänge (min/avg/max) | 2 / 52 / 180 Zeichen |
| Sprechgeschwindigkeit (Durchschnitt) | 14 Zeichen / Sekunde |
| Fragesätze | 2.780 |
| Ausrufesätze | 1.840 |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_thorsten_2021_5525342,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Neutral) Dataset},
month = feb,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {3.0},
doi = {10.5281/zenodo.5525342},
url = {https://doi.org/10.5281/zenodo.5525342}
}
Thorsten-Voice Dataset 2021.06 (Emotional)
Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.
- Neutral
- Angewidert
- Wütend
- Amüsiert
- Überrascht
- Schläfrig
- Flüsternd
- Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
| Anzahl Aufnahmen | 2.400 |
| Samplerate | |
| Kanäle | Mono |
| Normalisierung | -24dB |
| Satzlänge (min/max) | 59 / 148 Zeichen |
Download: https://zenodo.org/record/5525023
@dataset{muller_thorsten_2021_5525023,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten - Open German Voice (Emotional) Dataset},
month = jun,
year = 2021,
note = {{Please use it to make the world a better place for
whole humankind.}},
publisher = {Zenodo},
version = {2.0},
doi = {10.5281/zenodo.5525023},
url = {https://doi.org/10.5281/zenodo.5525023}
}
Thorsten-Voice Dataset 2022.10 (Neutral)
| Anzahl Aufnahmen | 12.432 |
| Audiodauer | 11+ Stunden |
| Samplerate | 22.050Hz |
| Kanäle | Mono |
| Normalisierung | -24dB |
| Sprechgeschwindigkeit (Durchschnitt) | 17,5 Zeichen / Sekunde |
@dataset{muller_thorsten_2022_7265581,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {ThorstenVoice Dataset 2022.10},
month = oct,
year = 2022,
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.7265581},
url = {https://doi.org/10.5281/zenodo.7265581}
}
Hier gibt’s mein Releasevideo zum neuen Dataset.
Mehr Infos und Download: https://zenodo.org/record/7265581
Thorsten-Voice Dataset 2023.09 (Hessisch)
| Anzahl Aufnahmen | 2.108 |
| Audiodauer | ca. 2 Stunden |
| Samplerate | 22.050Hz |
| Kanäle | Mono |
| Normalisierung | -24dB |
Wenn ihr dieses Dataset verwendet, dann referiert es bitte.
Download: https://zenodo.org/record/5525342
@dataset{muller_2024_10511260,
author = {Müller, Thorsten and
Kreutz, Dominik},
title = {Thorsten-Voice Dataset 2023.09 Hessisch},
month = jan,
year = 2024,
publisher = {Zenodo},
doi = {10.5281/zenodo.10511260},
url = {https://doi.org/10.5281/zenodo.10511260}
}
Thorsten-Voice Dataset
(TV-44kHz-Full)
Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:
- ALLE AUFNAHMEN in einem Dataset
- Aufnahmen in der original Samplerate von 44kHz
- Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
- Dauert pro Aufnahme
- Sprechgeschwindigkeit
- Monat der Aufnahme
- Qualität der Aufnahme
@misc {thorsten_müller_2024,
author = { {Thorsten Müller} },
title = { TV-44kHz-Full (Revision ff427ec) },
year = 2024,
url = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
doi = { 10.57967/hf/3290 },
publisher = { Hugging Face }
}
Thorsten-Voice Dataset 2025.12 (Mini Fine Tuning)
Steht auf Huggingface als CC0 zur Verfügung (Link).
Es enthält mit lediglich 60 Aufnahmen (24kHz Samplerate, normalisiert auf -24dB) deutlich weniger als die sonstigen Datasets. Sein Zweck besteht im Finetuning bestehender (Thorsten-Voice TTS) Modellen.


