Improve search in Media Archive using AI

Mit dem Aufkommen leistungsfähiger lokaler Sprachmodelle (LLMs) eröffnen sich neue Möglichkeiten für semantische Suche ohne Cloud-Abhängigkeit. ElasticSearch bietet mit dem ELSER-Stack eine lizenzpflichtige Lösung für semantische Suche, während gleichzeitig freie Alternativen auf Basis von Vektor-Embeddings und Nearest-Neighbor-Suche existieren. Ziel dieser Arbeit ist es, die Qualität und Performance dieser beiden Ansätze systematisch zu vergleichen. Wichtig dabei ist, dass die zur Verfügung gestellten Daten nicht in der Cloud landen.

  • Informationen

    • Semesterarbeit für 1 Personen
    • 20% Theorie, 80% Umsetzung
  • Zielsetzung der Arbeit

    1. Aufbau eines lokalen Software-Stacks:
      • ElasticSearch mit ELSER (lizenzpflichtig)
      • Alternative mit lokal generierten Vektor-Embeddings (z. B. durch SentenceTransformers, Mistral, LLaMA etc.) und Nearest-Neighbor-Suche
      • Betrieb beider Systeme in Docker-Containern mit und ohne GPU-Unterstützung
    2. Vergleich der Suchqualität:
      • Durchführung qualitativer und quantitativer Tests zur Relevanz der Suchergebnisse
      • Nutzung realer Testdaten aus dem SRF-Archiv (Transkripte, Abstracts, Webtexte, Bildbeschreibungen)
    3. Performance-Analyse:
      • Vergleich der Indexierungszeiten, Antwortzeiten und Ressourcenverbräuche
      • Dokumentation der Unterschiede bei CPU- vs. GPU-Betrieb
  • Voraussetzungen

    • Grundkenntnisse in Python und Docker
    • C#/Java Kenntnisse für Dateningest
    • Interesse an Information Retrieval, NLP und Machine Learning
    • Idealerweise erste Erfahrungen mit ElasticSearch oder Vektor-Datenbanken

Haben wir dein Interesse geweckt?

Ich bin an der Studienarbeit Improve search in Media Archive using AI interessiert und möchte mehr erfahren.