{"id":31425,"date":"2026-06-14T08:24:08","date_gmt":"2026-06-14T06:24:08","guid":{"rendered":"https:\/\/www.sysbus.eu\/?p=31425"},"modified":"2026-06-10T08:38:12","modified_gmt":"2026-06-10T06:38:12","slug":"offener-standard-fuer-ki-native-dokumente-lf-ai-data-foundation-startet-doclang-arbeitsgruppe","status":"publish","type":"post","link":"https:\/\/www.sysbus.eu\/?p=31425","title":{"rendered":"Offener Standard f\u00fcr KI-native Dokumente: LF AI &amp; Data Foundation startet DocLang-Arbeitsgruppe"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Die Nutzung generativer KI in Unternehmen h\u00e4ngt ma\u00dfgeblich von der Qualit\u00e4t und Struktur der zugrunde liegenden Daten ab. Dokumente z\u00e4hlen dabei zu den wichtigsten Wissensquellen, liegen jedoch meist in Formaten vor, die urspr\u00fcnglich f\u00fcr Menschen und nicht f\u00fcr Maschinen entwickelt wurden. Die LF AI &amp; Data Foundation will dieses Problem nun mit einem offenen Standard adressieren. Mit der Gr\u00fcndung der DocLang Specification Working Group soll ein interoperables Dokumentenformat entstehen, das speziell f\u00fcr KI-Anwendungen entwickelt wurde. Unterst\u00fctzt wird die Initiative von Unternehmen wie IBM, NVIDIA, Red Hat, ABBYY und HumanSignal.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"772\" src=\"https:\/\/www.sysbus.eu\/wp-content\/uploads\/2026\/06\/IMG_1757-1024x772.jpeg\" alt=\"\" class=\"wp-image-31427\" srcset=\"https:\/\/www.sysbus.eu\/wp-content\/uploads\/2026\/06\/IMG_1757-1024x772.jpeg 1024w, https:\/\/www.sysbus.eu\/wp-content\/uploads\/2026\/06\/IMG_1757-300x226.jpeg 300w, https:\/\/www.sysbus.eu\/wp-content\/uploads\/2026\/06\/IMG_1757-768x579.jpeg 768w, https:\/\/www.sysbus.eu\/wp-content\/uploads\/2026\/06\/IMG_1757.jpeg 1200w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Die LF AI &#038; Data Foundation startet Arbeitsgruppe f\u00fcr die DocLang-Spezifikation &#8211; Quelle: Abby\/LinuxFoundation<\/figcaption><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Die unter dem Dach der Linux Foundation angesiedelte LF AI &amp; Data Foundation hat die Gr\u00fcndung der \u201eDocLang Specification Working Group\u201c bekannt gegeben. Ziel der Arbeitsgruppe ist die Entwicklung eines offenen und herstellerneutralen Standards f\u00fcr KI-native Dokumente. DocLang soll Unternehmen dabei unterst\u00fctzen, Dokumentendaten effizienter aufzubereiten, auszutauschen und f\u00fcr KI-Systeme nutzbar zu machen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Hinter der Initiative stehen die LF AI &amp; Data-Mitglieder IBM, NVIDIA und Red Hat sowie die Unternehmen ABBYY und HumanSignal. Die Entwicklung erfolgt nach dem Open-Governance-Modell der Joint Development Foundation, um eine langfristig offene und interoperable Spezifikation sicherzustellen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nach Angaben der Initiatoren soll DocLang sowohl die semantische Bedeutung als auch das geometrische Layout eines Dokuments in einem einzigen Format abbilden. Dazu geh\u00f6ren strukturelle Elemente wie \u00dcberschriften, Abs\u00e4tze oder Tabellen ebenso wie deren Position auf einer Seite. Zudem sind Governance-Funktionen vorgesehen, die Datenschutzrichtlinien, Berechtigungen oder Vorgaben f\u00fcr das Training von KI-Modellen unterst\u00fctzen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u201eDokumente wurden f\u00fcr Menschen geschaffen, nicht f\u00fcr Maschinen\u201c, erkl\u00e4rt Maxime Vermeir, Vice President AI Strategy bei ABBYY. Mit einer standardisierten, KI-nativen Darstellung von Dokumentenstrukturen und -inhalten k\u00f6nne eine deutlich zuverl\u00e4ssigere Grundlage f\u00fcr moderne KI-Anwendungen geschaffen werden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Arbeitsgruppe baut auf dem Open-Source-Projekt Docling auf, das von IBM Research Z\u00fcrich entwickelt und 2024 ver\u00f6ffentlicht wurde. Das Toolkit verarbeitet unterschiedliche Dokumentformate wie PDF, Word-, PowerPoint- oder Excel-Dateien sowie HTML-Inhalte und Bilder. Mithilfe von Layout- und Tabellenerkennungsmodellen werden diese in strukturierte, KI-taugliche Datenmodelle \u00fcberf\u00fchrt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">W\u00e4hrend Docling die Verarbeitung und Konvertierung \u00fcbernimmt, definiert DocLang k\u00fcnftig den offenen Standard f\u00fcr die Darstellung und den Austausch dieser strukturierten Informationen. Gemeinsam sollen beide Projekte einen durchg\u00e4ngigen Open-Source-Stack f\u00fcr Dokumenten-KI bilden \u2013 von der Erfassung und Analyse bis zur Nutzung durch Large Language Models und agentenbasierte KI-Systeme.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Initiatoren sehen darin einen wichtigen Schritt, um die heute stark fragmentierte Landschaft aus PDFs, Bilddateien und weiteren Dokumentenformaten f\u00fcr den Einsatz moderner KI-Systeme besser nutzbar zu machen. Unternehmen k\u00f6nnten dadurch Dokumentdaten zuverl\u00e4ssiger, transparenter und skalierbarer in KI-gest\u00fctzte Prozesse integrieren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Weitere Informationen zur Spezifikation und Beteiligungsm\u00f6glichkeiten bietet die offizielle Projektseite:&nbsp; DocLang<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die Nutzung generativer KI in Unternehmen h\u00e4ngt ma\u00dfgeblich von der Qualit\u00e4t und Struktur der zugrunde liegenden Daten ab. Dokumente z\u00e4hlen dabei zu den wichtigsten Wissensquellen, liegen jedoch meist in Formaten vor, die urspr\u00fcnglich f\u00fcr Menschen und nicht f\u00fcr Maschinen entwickelt wurden. Die LF AI &#038; Data Foundation will dieses Problem nun mit einem offenen Standard adressieren. Mit der Gr\u00fcndung der DocLang Specification Working Group soll ein interoperables Dokumentenformat entstehen, das speziell f\u00fcr KI-Anwendungen entwickelt wurde. Unterst\u00fctzt wird die Initiative von Unternehmen wie IBM, NVIDIA, Red Hat, ABBYY und HumanSignal.<\/p>\n","protected":false},"author":81,"featured_media":31427,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"colormag_page_container_layout":"default_layout","colormag_page_sidebar_layout":"default_layout","footnotes":""},"categories":[10036],"tags":[22496,21095,25994,7771],"class_list":["post-31425","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-kuenstliche-intelligenz","tag-documentai","tag-kuenstlicheintelligenz","tag-linuxfoundation","tag-opensource"],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/posts\/31425","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/users\/81"}],"replies":[{"embeddable":true,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=31425"}],"version-history":[{"count":1,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/posts\/31425\/revisions"}],"predecessor-version":[{"id":31428,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/posts\/31425\/revisions\/31428"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=\/wp\/v2\/media\/31427"}],"wp:attachment":[{"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=31425"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=31425"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.sysbus.eu\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=31425"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}