Strukturierte Informationen aus langen Texten – Klarheit durch gezielte KI-Architekturen

Thorge Früchtenicht

Thorge Früchtenicht

Lange, umfangreiche Texte bergen viele wertvolle Informationen – von detaillierten Meeting-Protokollen bis hin zu umfassenden Berichten und wissenschaftlichen Studien. Die Herausforderung liegt darin, diese Informationen automatisiert, zuverlässig und nachvollziehbar herauszufiltern und in eine strukturierte Form zu bringen. Dabei stoßen Künstliche Intelligenz und Large Language Models (LLMs) allerdings auf natürliche Grenzen, die bei der Verarbeitung großer Textmengen bedacht werden müssen.

Im Folgenden betrachten wir zwei zentrale Ansätze, um diese Herausforderung zu meistern: das Chunk-by-Chunk Processing als klassisches Zerlegungsprinzip und die strukturgetrennte Arbeitsteilung per Metadatenbasiertem Fill, ein modularer Ansatz, der besonders bei komplexen Ausgabestrukturen überzeugt.

Die zentrale Limitation bei LLMs: Das Context Window

LLMs wie GPT-4 verfügen nur über ein begrenztes Kurzzeitgedächtnis, das sogenannte Context Window. Dieses legt fest, wie viel Text das Modell gleichzeitig „sehen“ und verarbeiten kann. Bei GPT-4 beträgt es aktuell etwa 128.000 Tokens – eine beachtliche Zahl, doch bei längeren Dokumenten oder umfangreichen Textkollektionen oft unzureichend.

Beispiele:

  • Projektberichte mit mehreren hundert Seiten überschreiten schnell diese Grenze.
  • Protokolle von Monatsmeetings oder Chatlogs über Quartale umfassen zehntausende, manchmal hunderttausende Tokens.
  • Fachartikel oder technische Handbücher fragmentieren sich oft in komplexe Kapitelverteilunge.

Das bedeutet: Möchte man den gesamten Text in einem Rutsch auswerten, wird das Context Window rasch überschritten. Informationen außerhalb dieses Limits entgleiten dem Modell.

Ansatz 1: Chunk-by-Chunk Processing – Der bewährte Häppchenansatz

Die Lösung ist naheliegend: Statt den gesamten Text auf einmal zu verarbeiten, wird er systematisch in Chunks – kleine, handhabbare Einheiten – aufgeteilt. Jeder Chunk enthält nur so viele Tokens, dass das LLM ihn innerhalb seines Context Windows zuverlässig verarbeiten kann.

Wesentliche Elemente des Chunking

  • Sinnvolle Segmentierung: Chunks orientieren sich an logischen, inhaltlichen Grenzen (Absätzen, Kapiteln oder Themenblöcken). Das Vermeiden willkürlicher Schnittstellen minimiert Kontextverluste.
  • Überlappung der Chunks: Damit keine Information am Rand eines Chunks verloren geht, überlappen sich Abschnitte auf definierte Weise.
  • Metadaten: Jeder Chunk erhält Kennzeichnungen wie Kapitelname, Abschnittsnummer oder Thema, um die spätere Aggregation zu erleichtern.

Typischer Workflow

  1. Chunking-Agent: Zerteilt das Dokument in strukturell sinnvolle Chunks.
  2. Verarbeitende Agenten: Jeder einzelne Chunk wird separat analysiert und ausgewertet.
  3. Zusammenführungs-Agent: Aggregiert die Ergebnisse zu einer kohärenten Gesamtstruktur.

Beispiel: Meeting-Transcript mit Zusammenfassungen

Ein Meeting-Transcript von mehreren Seiten wird in thematische Abschnitte gegliedert, etwa Begrüßung, Projektstatus, Diskussion, Aufgaben. Für jeden Abschnitt extrahiert ein Agent eine kurze, prägnante Zusammenfassung.

  • Chunk 1: „Projektstatus wurde präsentiert, wichtige Fragen notiert.“
  • Chunk 2: „Diskussion zum Launch-Termin, Entscheidung vertagt.“

Der Zusammenführungs-Agent verbindet die Einzelabschnitte zu einem Gesamtüberblick:
„Das Projekt ist auf Kurs. Einige Fragen bleiben offen. Launch-Termin wird noch festgelegt.“

Vorteile

  • Einfache Umsetzung
  • Gute Nachvollziehbarkeit und Transparenz
  • Geeignet für mittlere Detailtiefe

Grenzen

  • Zusammenführung bei großen Dokumenten komplex
  • Verluste bei cross-chunk Kontexten möglich
  • Skalierungsprobleme bei sehr umfangreichen Ausgabestrukturen

Ansatz 2: Strukturgetrennte Arbeitsteilung per Metadaten („Fill-by-Metadata“)

Dieses Verfahren verfolgt einen modulareren Weg, der vor allem dann Sinn macht, wenn die Ausgabestruktur komplex und vielschichtig ist – etwa verschachtelte Protokolle mit vielen Abschnitten, Teilnehmerlisten, Zitaten, Aufgaben und Entscheidungen.

Kernelemente

  • Die gewünschte Ausgabe wird in klar abgegrenzte Teilbereiche zerlegt (z.B. Teilnehmer, Agenda, Diskussionen, Entscheidungen).
  • Jeder Teilbereich wird von einem spezialisierten LLM-Agenten einzeln bearbeitet.
  • Die Zuordnung der Textquellen erfolgt nicht sequenziell, sondern intelligent auf Basis von Metadaten, z.B.:
    • Kapitelüberschriften
    • Themen-Tags
    • Zeitstempel oder Sprecher-IDs
    • Dokumenttypen

So filtert jeder Agent nur die für sein Aufgabenfeld relevanten Textabschnitte heraus, unabhängig vom Rest.

Workflow

  1. Metadatenanreicherung: Das Ausgangstranskript wird vorverarbeitet und mit aussagekräftigen Metadaten versehen.
  2. Parallele Agentenverarbeitung:
    • Agent Teilnehmerliste: Extrahiert alle anwesenden Personen aus den Teilnehmerabschnitten.
    • Agent Agenda: Sammelt Tagesordnungspunkte.
    • Diskussions-Agent: Sucht gezielt nach Diskussionsabschnitten mit Metadaten „Diskussion“.
    • Zitat-Agent: Extrahiert Originalaussagen aus markierten Abschnitten.
    • Aufgaben-Agent: Listet Verantwortliche, Fristen und To-Dos.
  3. Zusammenführung: Die Ergebnisse werden in die vorgegebene Gesamtstruktur ohne komplexes Mergen integriert.

Beispiel: Komplexes Meeting-Protokoll

Statt nur Zusammenfassungen, entsteht ein detailliertes Protokoll mit:

  • Vollständiger Teilnehmerliste
  • Tagesordnung
  • Mehreren Diskussionspunkten mit Kernaussagen und originalen Zitaten
  • Konkreten Aufgaben mit Fristen
  • Abschließenden Beschlüssen und offenen Fragen

Jeder Agent greift nur auf die Chunks zu, die durch Metadaten speziell für seine Aufgabe relevant sind, z.B. alle Textabschnitte mit Tag „Entscheidung“ oder „To-Do“.

Vorteile

  • Hohe Detailtiefe
  • Sehr hohe Skalierbarkeit
  • Sehr gute Nachvollziehbarkeit durch klare Arbeitsteilung
  • Flexibilität bei komplexen Zielstrukturen

Grenzen

  • Abhängigkeit von hochwertigen, aussagekräftigen Metadaten
  • Vorbereitender Mehraufwand für Metadaten-Annotation
  • Regelbasierte Abstimmung bei Überschneidungen nötig

Vergleich der beiden Ansätze

KriteriumChunk-by-Chunk ProcessingFill-by-Metadata-Workflows
ZielFokus auf lineare/schrittweise Verarbeitung und ZusammenfassungModularer Aufbau komplexer Strukturen
VerarbeitungsmodellSequenziell oder parallelParallel mit klar zugewiesenen Aufgaben
KontextbewahrungÜberlappung, aber limitiertKontext durch Metadaten präzise gesteuert
SkalierbarkeitMittel bis gering bei sehr großen StrukturenHoch, beliebig skalierbar
TransparenzGut, mit Chunk-ReferenzierungSehr gut, da jeder Agent isoliert arbeitet
AnwendungKurze Zusammenfassungen, SofortüberblickeUmfangreiche Protokolle, detaillierte Reports

Fazit – Struktur als Schlüssel für vertrauenswürdige KI

Die Verarbeitung großer Texte durch KI erfordert klare Prinzipien:

  • Weniger, dafür spezialisierte Schritte: Jedes Modell hat seine Aufgabe und führt sie kontrolliert aus.
  • Bewusster Umgang mit den Architectur-Limits von LLMs, wie dem Context Window.
  • Klare Zielstrukturen und transparente Workflows sind unerlässlich, um Vertrauen und Nachvollziehbarkeit zu schaffen.
  • Metadaten sind Gold wert: Sie ermöglichen eine präzise Steuerung auch bei massiven Datendimensionen.

Denn nur so entsteht ein KI-System, das nicht nur funktioniert, sondern auch verstanden werden kann. Und ein intelligentes System ist nichts wert, wenn es nicht nachvollziehbar ist.

Bei Nav.IQ glauben wir:
Transparenz ist Stärke. Struktur ist Klarheit. Und Klarheit schafft Vertrauen.