Offener Standard für KI-native Dokumente: LF AI & Data Foundation startet DocLang-Arbeitsgruppe
Die Nutzung generativer KI in Unternehmen hängt maßgeblich von der Qualität und Struktur der zugrunde liegenden Daten ab. Dokumente zählen dabei zu den wichtigsten Wissensquellen, liegen jedoch meist in Formaten vor, die ursprünglich für Menschen und nicht für Maschinen entwickelt wurden. Die LF AI & Data Foundation will dieses Problem nun mit einem offenen Standard adressieren. Mit der Gründung der DocLang Specification Working Group soll ein interoperables Dokumentenformat entstehen, das speziell für KI-Anwendungen entwickelt wurde. Unterstützt wird die Initiative von Unternehmen wie IBM, NVIDIA, Red Hat, ABBYY und HumanSignal.

Die unter dem Dach der Linux Foundation angesiedelte LF AI & Data Foundation hat die Gründung der „DocLang Specification Working Group“ bekannt gegeben. Ziel der Arbeitsgruppe ist die Entwicklung eines offenen und herstellerneutralen Standards für KI-native Dokumente. DocLang soll Unternehmen dabei unterstützen, Dokumentendaten effizienter aufzubereiten, auszutauschen und für KI-Systeme nutzbar zu machen.
Hinter der Initiative stehen die LF AI & Data-Mitglieder IBM, NVIDIA und Red Hat sowie die Unternehmen ABBYY und HumanSignal. Die Entwicklung erfolgt nach dem Open-Governance-Modell der Joint Development Foundation, um eine langfristig offene und interoperable Spezifikation sicherzustellen.
Nach Angaben der Initiatoren soll DocLang sowohl die semantische Bedeutung als auch das geometrische Layout eines Dokuments in einem einzigen Format abbilden. Dazu gehören strukturelle Elemente wie Überschriften, Absätze oder Tabellen ebenso wie deren Position auf einer Seite. Zudem sind Governance-Funktionen vorgesehen, die Datenschutzrichtlinien, Berechtigungen oder Vorgaben für das Training von KI-Modellen unterstützen.
„Dokumente wurden für Menschen geschaffen, nicht für Maschinen“, erklärt Maxime Vermeir, Vice President AI Strategy bei ABBYY. Mit einer standardisierten, KI-nativen Darstellung von Dokumentenstrukturen und -inhalten könne eine deutlich zuverlässigere Grundlage für moderne KI-Anwendungen geschaffen werden.
Die Arbeitsgruppe baut auf dem Open-Source-Projekt Docling auf, das von IBM Research Zürich entwickelt und 2024 veröffentlicht wurde. Das Toolkit verarbeitet unterschiedliche Dokumentformate wie PDF, Word-, PowerPoint- oder Excel-Dateien sowie HTML-Inhalte und Bilder. Mithilfe von Layout- und Tabellenerkennungsmodellen werden diese in strukturierte, KI-taugliche Datenmodelle überführt.
Während Docling die Verarbeitung und Konvertierung übernimmt, definiert DocLang künftig den offenen Standard für die Darstellung und den Austausch dieser strukturierten Informationen. Gemeinsam sollen beide Projekte einen durchgängigen Open-Source-Stack für Dokumenten-KI bilden – von der Erfassung und Analyse bis zur Nutzung durch Large Language Models und agentenbasierte KI-Systeme.
Die Initiatoren sehen darin einen wichtigen Schritt, um die heute stark fragmentierte Landschaft aus PDFs, Bilddateien und weiteren Dokumentenformaten für den Einsatz moderner KI-Systeme besser nutzbar zu machen. Unternehmen könnten dadurch Dokumentdaten zuverlässiger, transparenter und skalierbarer in KI-gestützte Prozesse integrieren.
Weitere Informationen zur Spezifikation und Beteiligungsmöglichkeiten bietet die offizielle Projektseite: DocLang
