Wissenschaft & Forschung

Einsatz in Wissenschaft & Forschung

Die Thorsten-Voice Sprachdatensätze werden mittlerweile in über 20 wissenschaftlichen Abhandlungen von internationalen Forschungseinrichtungen verwendet.

Hochschule Hof – University of Applied Sciences
  • 11.06.2021: Sprachsynthese — State-of-the-Art in englischer und deutscher Sprache (Link)
  • 17.07.2022: Neural Speech Synthesis in German (Link)
  • 03.05.2023: ASR Bundestag: A Large-Scale political debate dataset in German (Link)
  • 14.01.2024: Automatic Speech Recognition in German: A Detailed Error Analysis (Link)
Universität Stuttgart
  • 24.06.2022: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
  • 18.10.2022: PoeticTTS – Controllable Poetry Reading for Literary Studies (Link)
  • 21.10.2022: Low-Resource Multilingual and Zero-Shot Multispeaker TTS (Link)
  • 27.01.2023: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech (Link)
Universität Magdeburg

27.04.2023: CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS (Link)

Universität Maastricht
  • 22.04.2022: LibriS2S: A German-English Speech-to-Speech Translation Corpus (Link)

Weitere Hochschulen

Fraunhofer-Institut für Angewandte und Integrierte Sicherheit

17.01.2024: MLAAD: The Multi-Language Audio Anti-Spoofing Dataset (Link)
Thorsten Müller ist hier Co-Autor.

Gesellschaft für Informatik

11.09.2023: Shared listening experience for hyperaudio textbooks (Link)

Universität Augsburg

15.10.2021: Scribosermo: Fast Speech-to-Text models for German and other Languages (Link)



IEEE Engineering in Medicine & Biology Society

15.07.20222: Language-Independent Sleepy Speech Detection (Link)

University of Southern California

08.11.2022: Exploring the Community of Model Publishers on TensorFlow Hub (Link)

Yıldız Technical Universit

05.06.2022: Is it possible to train a Turkish text-to-speech model with English data? (Link)


Adıyaman-Universität

03.07.2023: Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama (Preparing a Balanced Dataset for the Development of Turkish TTS Systems) (Link)

Massachusetts Institute of Technology (MIT)

11.10.2023: Audio-Visual Neural Syntax Acquisition (Link)

University of Texas at Austin

20.02.2024: Textless Low-Resource Speech-to-Speech Translation With Unit Language Models (Link)

Universitat Politècnica de Catalunya

25.04.2024: SpeechAlign: a Framework for Speech Translation Alignment Evaluation (Link)



TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO

19.06.2024: Learning Language Structures through Grounding (Link)

Virginia Commonwealth University

14.08.2024: SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition (Link)

29.11.2024: BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION (Link)

06.10.2024: A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition (Link)



POSTECH, Republic of Korea

14.04.2024: Leveraging the Interplay Between
Syntactic and Acoustic Cues for Optimizing
Korean TTS Pause Formation (Link)

Universität zu Lübeck

Die Abhandlung „Automatische Optimierung von Audiosignalen für Transkription mit Evolutionären Algorithmen und Machine Learning“ beschäftigt sich mit Sprachtechnologie im Gesundheitssektor (Link)

HAL Open Science

Thorsten-Voice wird in der wissenschaftlichen Publikation Popular Voices: Computational Analysis of Poetry and Song (HAL Open Science, 2026) als Beispiel verwendet. (Link)

Thorsten-Voice Sprachdatensätze

Freie Daten (in freigiebiger Open-Source Lizenz) sind wichtig für Forschung und Wissenschaft.

Alle „Thorsten-Voice“ Sprachdatensätze stehen unter der CC0 Lizenz zur Verfügung (auf Zenodo und Huggingface). Weitere Informationen, DOIs (Digital Object Identifier) und Downloadinformationen folgen im weiteren Verlauf der Seite.

Es stehen mehrere Thorsten-Voice Sprachdatensätze mit insgesamt über 30.000 Aufnahmen und einer Laufzeit von 30+ Stunden zur Verfügung.

Thorsten-Voice Dataset 2021.02 (Neutral)

Anzahl Aufnahmen22.668
Audiodauer23+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Satzlänge (min/avg/max)2 / 52 / 180 Zeichen
Sprechgeschwindigkeit
(Durchschnitt)
14 Zeichen / Sekunde
Fragesätze2.780
Ausrufesätze1.840
Beispiel #1 – „Sie klettert auf einen Stein und nimmt eine Denkerpose ein.“
Beispiel #2 – „Das Teilen eines Benutzerkontos ist strengstens untersagt.“
Beispiel #3 – „Jede gute Küchenwage hat eine Tara-Funktion.“

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_thorsten_2021_5525342,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Neutral) Dataset},
  month        = feb,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {3.0},
  doi          = {10.5281/zenodo.5525342},
  url          = {https://doi.org/10.5281/zenodo.5525342}
}

Thorsten-Voice Dataset 2021.06 (Emotional)

Das emotionale Dataset besteht aus 300 unterschiedlichen Sätzen. Jeder davon wird von mir in folgenden acht Emotionen gesprochen.

  • Neutral
  • Angewidert
  • Wütend
  • Amüsiert
  • Überrascht
  • Schläfrig
  • Flüsternd
  • Betrunken (nur so betont, ich war nüchtern während der Aufnahmen)
Anzahl Aufnahmen2.400
Samplerate
KanäleMono
Normalisierung-24dB
Satzlänge (min/max)59 / 148 Zeichen
Neutrale Aussprache – „Mist, wieder nichts geschafft.“
Angewiderte Aussprache – „Mist, wieder nichts geschafft.“
Wütende Aussprache – „Mist, wieder nichts geschafft.“
Amüsierte Aussprache – „Mist, wieder nichts geschafft.“
Überraschte Aussprache – „Mist, wieder nichts geschafft.“
Schläfrige Aussprache – „Mist, wieder nichts geschafft.“
Flüsternde Aussprache – „Mist, wieder nichts geschafft.“
Betrunkene Aussprache – „Mist, wieder nichts geschafft.“

Download: https://zenodo.org/record/5525023

@dataset{muller_thorsten_2021_5525023,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten - Open German Voice (Emotional) Dataset},
  month        = jun,
  year         = 2021,
  note         = {{Please use it to make the world a better place for 
                   whole humankind.}},
  publisher    = {Zenodo},
  version      = {2.0},
  doi          = {10.5281/zenodo.5525023},
  url          = {https://doi.org/10.5281/zenodo.5525023}
}

Thorsten-Voice Dataset 2022.10 (Neutral)

Anzahl Aufnahmen12.432
Audiodauer11+ Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB
Sprechgeschwindigkeit
(Durchschnitt)
17,5 Zeichen / Sekunde
@dataset{muller_thorsten_2022_7265581,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {ThorstenVoice Dataset 2022.10},
  month        = oct,
  year         = 2022,
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.7265581},
  url          = {https://doi.org/10.5281/zenodo.7265581}
}

Hier gibt’s mein Releasevideo zum neuen Dataset.

Mehr Infos und Download: https://zenodo.org/record/7265581

Thorsten-Voice Dataset 2023.09 (Hessisch)

Anzahl Aufnahmen2.108
Audiodauerca. 2 Stunden
Samplerate22.050Hz
KanäleMono
Normalisierung-24dB

Wenn ihr dieses Dataset verwendet, dann referiert es bitte.

Download: https://zenodo.org/record/5525342

@dataset{muller_2024_10511260,
  author       = {Müller, Thorsten and
                  Kreutz, Dominik},
  title        = {Thorsten-Voice Dataset 2023.09 Hessisch},
  month        = jan,
  year         = 2024,
  publisher    = {Zenodo},
  doi          = {10.5281/zenodo.10511260},
  url          = {https://doi.org/10.5281/zenodo.10511260}
}

 

Thorsten-Voice Dataset
(TV-44kHz-Full)

Dieses Dataset steht auf Huggingface bereit. Hightlights 🎉 sind:

  • ALLE AUFNAHMEN in einem Dataset
  • Aufnahmen in der original Samplerate von 44kHz
  • Logisch aufgeteilt in verschiedene Subsets (gemäß den oben genannten Aufteilungen)
  • Dauert pro Aufnahme
  • Sprechgeschwindigkeit
  • Monat der Aufnahme
  • Qualität der Aufnahme
@misc {thorsten_müller_2024,
    author       = { {Thorsten Müller} },
    title        = { TV-44kHz-Full (Revision ff427ec) },
    year         = 2024,
    url          = { https://huggingface.co/datasets/Thorsten-Voice/TV-44kHz-Full },
    doi          = { 10.57967/hf/3290 },
    publisher    = { Hugging Face }
}

Thorsten-Voice Dataset 2025.12 (Mini Fine Tuning)

Steht auf Huggingface als CC0 zur Verfügung (Link).

Es enthält mit lediglich 60 Aufnahmen (24kHz Samplerate, normalisiert auf -24dB) deutlich weniger als die sonstigen Datasets. Sein Zweck besteht im Finetuning bestehender (Thorsten-Voice TTS) Modellen.

This is default text for notification bar