Fine Tuning of Speech-to-Text Models

Für polizeiliche und juristische Arbeit werden zunehmend Sprachtranskriptionsmodelle verwendet. In dieser Arbeit soll ein bestehendes open source Transkriptionsmodell getuned und optimiert werden für praktische Anwendungsfälle (Domain Specific Language and Dialect Processing). Die Studierenden können sich selber aktiv in die Definition der Arbeit einbringen.

  • Ansätze und Konzepte

    1. Domain Specific Language Models

      • Anpassen/Optimieren von Whisper an domain-spezifisches Vokabular und Ausdrücke (Gerichte, HR, etc)

      • Z.B. durch Verwenden von Domain Adaption Methods

    2. Dialect Recognition and Processing

      • Anpassen/Optimieren von Whisper an verschiedene Dialekte

      • Z.B. Über Training eines Dialekt-Spezifischen Models oder Integration eines Dialekt-Identifikators

    3. Real-Time Error Correction and Suggestions

      • Korrektur der Transkription basierend auf Kontext oder auf Text-Korrektur-Interfaces durch End-User

    4. Automated Contextual Tagging

      • Automatisches Tagging von Transkripten (oder Teilen davon) basierend auf Kontext

      • Dadurch Auswahl eines geeigneten Sub-Models für die Transkription

  • Informationen

    • Semester- oder Masterarbeiten für 1-2 Personen
    • 50% Theorie, 50% Umsetzung
    • Voraussetzungen: Signalverarbeitung, Python

Haben wir dein Interesse geweckt?

Ich bin an der Studienarbeit Fine Tuning of Speech-to-Text Models interessiert und möchte mehr erfahren.