Strukturierte Informationen aus langen Texten – Klarheit durch gezielte KI-Architekturen

Thorge Früchtenicht

22. Juli 2025

Lange, umfangreiche Texte bergen viele wertvolle Informationen – von detaillierten Meeting-Protokollen bis hin zu umfassenden Berichten und wissenschaftlichen Studien. Die Herausforderung liegt darin, diese Informationen automatisiert, zuverlässig und nachvollziehbar herauszufiltern und in eine strukturierte Form zu bringen. Dabei stoßen Künstliche Intelligenz und Large Language Models (LLMs) allerdings auf natürliche Grenzen, die bei der Verarbeitung großer Textmengen bedacht werden müssen.

Im Folgenden betrachten wir zwei zentrale Ansätze, um diese Herausforderung zu meistern: das Chunk-by-Chunk Processing als klassisches Zerlegungsprinzip und die strukturgetrennte Arbeitsteilung per Metadatenbasiertem Fill, ein modularer Ansatz, der besonders bei komplexen Ausgabestrukturen überzeugt.

Die zentrale Limitation bei LLMs: Das Context Window

LLMs wie GPT-4 verfügen nur über ein begrenztes Kurzzeitgedächtnis, das sogenannte Context Window. Dieses legt fest, wie viel Text das Modell gleichzeitig „sehen“ und verarbeiten kann. Bei GPT-4 beträgt es aktuell etwa 128.000 Tokens – eine beachtliche Zahl, doch bei längeren Dokumenten oder umfangreichen Textkollektionen oft unzureichend.

Beispiele:

Projektberichte mit mehreren hundert Seiten überschreiten schnell diese Grenze.
Protokolle von Monatsmeetings oder Chatlogs über Quartale umfassen zehntausende, manchmal hunderttausende Tokens.
Fachartikel oder technische Handbücher fragmentieren sich oft in komplexe Kapitelverteilunge.

Das bedeutet: Möchte man den gesamten Text in einem Rutsch auswerten, wird das Context Window rasch überschritten. Informationen außerhalb dieses Limits entgleiten dem Modell.

Ansatz 1: Chunk-by-Chunk Processing – Der bewährte Häppchenansatz

Die Lösung ist naheliegend: Statt den gesamten Text auf einmal zu verarbeiten, wird er systematisch in Chunks – kleine, handhabbare Einheiten – aufgeteilt. Jeder Chunk enthält nur so viele Tokens, dass das LLM ihn innerhalb seines Context Windows zuverlässig verarbeiten kann.

Wesentliche Elemente des Chunking

Sinnvolle Segmentierung: Chunks orientieren sich an logischen, inhaltlichen Grenzen (Absätzen, Kapiteln oder Themenblöcken). Das Vermeiden willkürlicher Schnittstellen minimiert Kontextverluste.
Überlappung der Chunks: Damit keine Information am Rand eines Chunks verloren geht, überlappen sich Abschnitte auf definierte Weise.
Metadaten: Jeder Chunk erhält Kennzeichnungen wie Kapitelname, Abschnittsnummer oder Thema, um die spätere Aggregation zu erleichtern.

Typischer Workflow

Chunking-Agent: Zerteilt das Dokument in strukturell sinnvolle Chunks.
Verarbeitende Agenten: Jeder einzelne Chunk wird separat analysiert und ausgewertet.
Zusammenführungs-Agent: Aggregiert die Ergebnisse zu einer kohärenten Gesamtstruktur.

Beispiel: Meeting-Transcript mit Zusammenfassungen

Ein Meeting-Transcript von mehreren Seiten wird in thematische Abschnitte gegliedert, etwa Begrüßung, Projektstatus, Diskussion, Aufgaben. Für jeden Abschnitt extrahiert ein Agent eine kurze, prägnante Zusammenfassung.

Chunk 1: „Projektstatus wurde präsentiert, wichtige Fragen notiert.“
Chunk 2: „Diskussion zum Launch-Termin, Entscheidung vertagt.“

Der Zusammenführungs-Agent verbindet die Einzelabschnitte zu einem Gesamtüberblick:
„Das Projekt ist auf Kurs. Einige Fragen bleiben offen. Launch-Termin wird noch festgelegt.“

Vorteile

Einfache Umsetzung
Gute Nachvollziehbarkeit und Transparenz
Geeignet für mittlere Detailtiefe

Grenzen

Zusammenführung bei großen Dokumenten komplex
Verluste bei cross-chunk Kontexten möglich
Skalierungsprobleme bei sehr umfangreichen Ausgabestrukturen

Ansatz 2: Strukturgetrennte Arbeitsteilung per Metadaten („Fill-by-Metadata“)

Dieses Verfahren verfolgt einen modulareren Weg, der vor allem dann Sinn macht, wenn die Ausgabestruktur komplex und vielschichtig ist – etwa verschachtelte Protokolle mit vielen Abschnitten, Teilnehmerlisten, Zitaten, Aufgaben und Entscheidungen.

Kernelemente

Die gewünschte Ausgabe wird in klar abgegrenzte Teilbereiche zerlegt (z.B. Teilnehmer, Agenda, Diskussionen, Entscheidungen).
Jeder Teilbereich wird von einem spezialisierten LLM-Agenten einzeln bearbeitet.
Die Zuordnung der Textquellen erfolgt nicht sequenziell, sondern intelligent auf Basis von Metadaten, z.B.:
- Kapitelüberschriften
- Themen-Tags
- Zeitstempel oder Sprecher-IDs
- Dokumenttypen

So filtert jeder Agent nur die für sein Aufgabenfeld relevanten Textabschnitte heraus, unabhängig vom Rest.

Workflow

Metadatenanreicherung: Das Ausgangstranskript wird vorverarbeitet und mit aussagekräftigen Metadaten versehen.
Parallele Agentenverarbeitung:
- Agent Teilnehmerliste: Extrahiert alle anwesenden Personen aus den Teilnehmerabschnitten.
- Agent Agenda: Sammelt Tagesordnungspunkte.
- Diskussions-Agent: Sucht gezielt nach Diskussionsabschnitten mit Metadaten „Diskussion“.
- Zitat-Agent: Extrahiert Originalaussagen aus markierten Abschnitten.
- Aufgaben-Agent: Listet Verantwortliche, Fristen und To-Dos.
Zusammenführung: Die Ergebnisse werden in die vorgegebene Gesamtstruktur ohne komplexes Mergen integriert.

Beispiel: Komplexes Meeting-Protokoll

Statt nur Zusammenfassungen, entsteht ein detailliertes Protokoll mit:

Vollständiger Teilnehmerliste
Tagesordnung
Mehreren Diskussionspunkten mit Kernaussagen und originalen Zitaten
Konkreten Aufgaben mit Fristen
Abschließenden Beschlüssen und offenen Fragen

Jeder Agent greift nur auf die Chunks zu, die durch Metadaten speziell für seine Aufgabe relevant sind, z.B. alle Textabschnitte mit Tag „Entscheidung“ oder „To-Do“.

Vorteile

Hohe Detailtiefe
Sehr hohe Skalierbarkeit
Sehr gute Nachvollziehbarkeit durch klare Arbeitsteilung
Flexibilität bei komplexen Zielstrukturen

Grenzen

Abhängigkeit von hochwertigen, aussagekräftigen Metadaten
Vorbereitender Mehraufwand für Metadaten-Annotation
Regelbasierte Abstimmung bei Überschneidungen nötig

Vergleich der beiden Ansätze

Kriterium	Chunk-by-Chunk Processing	Fill-by-Metadata-Workflows
Ziel	Fokus auf lineare/schrittweise Verarbeitung und Zusammenfassung	Modularer Aufbau komplexer Strukturen
Verarbeitungsmodell	Sequenziell oder parallel	Parallel mit klar zugewiesenen Aufgaben
Kontextbewahrung	Überlappung, aber limitiert	Kontext durch Metadaten präzise gesteuert
Skalierbarkeit	Mittel bis gering bei sehr großen Strukturen	Hoch, beliebig skalierbar
Transparenz	Gut, mit Chunk-Referenzierung	Sehr gut, da jeder Agent isoliert arbeitet
Anwendung	Kurze Zusammenfassungen, Sofortüberblicke	Umfangreiche Protokolle, detaillierte Reports

Fazit – Struktur als Schlüssel für vertrauenswürdige KI

Die Verarbeitung großer Texte durch KI erfordert klare Prinzipien:

Weniger, dafür spezialisierte Schritte: Jedes Modell hat seine Aufgabe und führt sie kontrolliert aus.
Bewusster Umgang mit den Architectur-Limits von LLMs, wie dem Context Window.
Klare Zielstrukturen und transparente Workflows sind unerlässlich, um Vertrauen und Nachvollziehbarkeit zu schaffen.
Metadaten sind Gold wert: Sie ermöglichen eine präzise Steuerung auch bei massiven Datendimensionen.

Denn nur so entsteht ein KI-System, das nicht nur funktioniert, sondern auch verstanden werden kann. Und ein intelligentes System ist nichts wert, wenn es nicht nachvollziehbar ist.

Bei Nav.IQ glauben wir:
Transparenz ist Stärke. Struktur ist Klarheit. Und Klarheit schafft Vertrauen.

Strukturierte Informationen aus langen Texten – Klarheit durch gezielte KI-Architekturen

Die zentrale Limitation bei LLMs: Das Context Window

Ansatz 1: Chunk-by-Chunk Processing – Der bewährte Häppchenansatz

Wesentliche Elemente des Chunking

Typischer Workflow

Beispiel: Meeting-Transcript mit Zusammenfassungen

Vorteile

Grenzen

Ansatz 2: Strukturgetrennte Arbeitsteilung per Metadaten („Fill-by-Metadata“)

Kernelemente

Workflow

Beispiel: Komplexes Meeting-Protokoll

Vorteile

Grenzen

Vergleich der beiden Ansätze

Fazit – Struktur als Schlüssel für vertrauenswürdige KI

Unsere Partner