Multimodal Speech-to-Text Transcription

In dieser Arbeit soll die Erstellung eines Sprachtranskripts erweitert werden um zusätzliche Informationsquellen, primär Video. Dadurch sollen nicht-sprachliche Elemente wie Gesten, Lippen-Lesen, sichtaber Sprecheraktivität etc. hinzugezogen werden für die Optimierung eines Sprachtranskripts. Nonverbale Äusserungen wie z.B. Nicken oder Kopfschütteln sollen erkannt und in ein Protokoll übernommen werden können.Die Studierenden können sich selber aktiv in die Definition der Arbeit einbringen.

  • Weitere Informationen

    • Semester- oder Masterarbeit für 1-2 Personen
    • 40% Theorie, 60% Umsetzung
    • Voraussetzungen: Signalverarbeitung, Python

Haben wir dein Interesse geweckt?

Ich bin an der Studienarbeit Multimodal Speech-to-Text Transcription interessiert und möchte mehr erfahren.