Die Strukturierung: eine gute Vorbereitung ist der Schlüssel
Um die Dokumente optimal auf die Extraktion vorzubereiten ist es sinnvoll , die Dokumente vorab zu strukturieren. Durch eine Strukturierung zu Beginn des Prozesses verbessert sich die Erkennungsleistung, sinkt die Fehlerquote und letztlich sparen Sie Aufwände in der Nachbereitung.
Zwei Verfahren für die optimale Strukturierung
Das Clusteringverfahren
Beim Clustering erhalten Sie einen groben Überblick, was überhaupt in dem Dokumentenbestand steckt. Dabei stellt die KI die Klassen selbst zusammen, je nach Inhalt der Dokumente. Das Clustering erfolgt ungestützt, auf Text- oder Bildebene. Es werden keine Trainingsdaten benötigt. Die Dokumente werden importiert und auf Knopfdruck erhalten Sie innerhalb kurzer Zeit ein Ergebnis und damit einen ersten Eindruck von den Inhalten Ihres Dokumentenbestands. Das Ergebnis fasst gleichartige Dokumente zu Clustergruppen zusammen.
Beispiel:
- Import von 50.000 völlig unsortierten Rechnungen.
- Von der KI ermitteltes Ergebnis:
- 25.000 Dokumente sind Rechnungen von Lieferant A,
- 20.000 Dokumente sind Rechnungen von Lieferant B und
- 5.000 Dokumente sind AGB.
Klassifikationsverfahren
Der sogenannte Documentclassifier ist einsetzbar auf verschiedenen Ebenen von Dokumententypen. Er gruppiert Dokumenten in vorab, individuell abgestimmte und definierte Klassen – ganz nach Ihren Wünschen und Bedürfnissen.
Beispiel:
- Clusteringverfahren
- Definition von Klassen (einfaches Beispiel, es sind aber auch deutliche komplexere Klassen möglich)
a. Rechnungen von Lieferant A Zeitraum 1990 bis 1999
b. Rechnungen von Lieferant A Zeitraum 2000 bis 2010
c. Rechnungen von Lieferant B Zeitraum 1990 bis 1999
d. Rechnungen von Lieferant B Zeitraum 2000 bis 2010 - Ergebnis:
a. 20.000 Rechnungen von Lieferant A aus dem Zeitraum 1990 bis 1999
b. 5.000 Rechnungen von Lieferant A aus dem Zeitraum 2000 bis 2010
c. 5.000 Rechnungen von Lieferant B aus dem Zeitraum 1990 bis 1999
d. 15.000 Rechnungen von Lieferant B aus dem Zeitraum von 2000 bis 2010
Beide Verfahren können aufeinander aufbauen oder unabhängig voneinander eingesetzt werden. Hier profitieren Sie von maximaler Flexibilität. Oft ist es sinnvoll, zuerst eine grobe Strukturierung mithilfe von Clustering durchzuführen und dann nachgelagert eine feinere Sortierung mithilfe von Klassifikation. Auch denkbar wäre, dass das Clustering schon ausreicht und nicht zwingend eine weitere Klassifikation durchgeführt werden muss. Möglich ist auch, dass schon bekannt ist, was im Dokumentenbestand enthalten oder dieser gar nicht so unübersichtlich ist. In diesem Fall kann direkt mit der Klassifikation oder gar der Extraktion gestartet werden . Alle Möglichkeiten können flexibel kombiniert werden – je nach Ausganglage und Ihrem Bedarf.

Wobei Ihnen die Strukturierung hilft
- Sie erhalten einen Überblick über den Datenbestand und verstehen ihn besser.
- Zeitersparnis bei der Auszeichnung der Dokumente für das Training: Eine Strukturierung der Dokumente hilft Ihnen bei einer zielgerichteten Auszeichnung. Beispiel: Bei 100 gleichartigen Belegen hintereinander kennt der Mitarbeiter nach kurzer Zeit die Struktur der Dokumente und findet die auszuzeichnenden Informationen deutlich schneller als bei unsortierten Dokumenten. Denn bei unsortierten Dokumenten muss er sich jedes Mal neu orientieren und suchen, wo sich die Informationen auf dem Dokument befinden.
- Verbesserung der Erkennungsleistung: Auch der KI hilft eine gute Strukturierung beim Training und verbessert die Erkennungsleistung und die Datenqualität. So wie der Mensch sich auf ein Layout einstellen kann, lernt auch die KI schneller und liefert zuverlässigere Ergebnisse, wenn die Dokumente immer ähnlich strukturiert sind.
- Optimierter Export: Durch die Strukturierung ist der Export, einheitlicher und besser sortiert, so dass die Daten leichter korrigiert und weiterverarbeitet werden können.
Beispiel: Ein Rechnungslayout enthält immer eine UStID, wogegen in einem anderen Rechnungslayout diese Information nie vorhanden ist. Sind diese Layouts beim Export unstrukturiert, lässt sich bei der Korrektur nicht sofort erkennen, ob ein Fehler vorliegt und die UStID versehentlich nicht mit exportiert wurde oder ob es sich um das Layout handelt, wo gar keine vorhanden war. Sind die Layouts gruppiert erkennt man sofort, dass ein Fehler vorliegt, wenn eine UStID in der entsprechenden Gruppe fehlt.

Wie geht es nach der Strukturierung weiter?
In dem dritten Teil unserer Serie „Datenextraktion & Strukturierung“ erzählen wir Ihnen mehr über Auszeichnung, Training und Vorhersagen. Falls Sie den ersten Teil verpasst haben – geht es hier lang zu „Datenextraktion & Strukturierung Teil 1“.
Sollten Sie Fragen zur automatisierten Datenextraktion haben, gibt Ihnen unser Experte Dietmar Neidig gern schon vorab nähere Einblicke in das Thema.
Direkt Termin vereinbaren!
Mit dem Online-Tool Calendly können Sie direkt online Ihren Wunschtermin wählen. Buchen Sie noch heute Ihre 15-minütige Besprechung bei Dietmar Neidig und erhalten Sie eine Kalender-Einladung mit Zugangslink zu Ihrer persönlichen Teams-Besprechung.

Anwendungsfälle finden Sie auf unserem Blog!
Datenextraktion & Strukturierung Teil 3
Erfahren Sie im drittenTeil „Datenextraktion & Strukturierung“ alles darüber, wie Sie Daten aus Dokumenten extrahieren mittels Auszeichnung, KI-Training und Vorhersagen.
Datenextraktion & Strukturierung Teil 1
Erfahren Sie im ersten Teil „Datenextraktion & Strukturierung“ alles darüber, wie Sie Dokumente strukturieren sowie Daten automatisiert extrahieren und was das mit gutem Kaffee zu tun hat.
Stundensätze von Kfz-Werkstätten im Marktpreismodell
Wissen Sie, was welcher Automechaniker vor Ort die Stunde kostet? Und wissen Sie auch, was ein Automechaniker pro Stunde im Vergleich in München, Hannover oder Castrop-Rauxel kostet? Machen Sie den Stundensatz von Kfz-Werkstätten vergleichbar mithilfe von Marktpreismodellen und dem Einsatz einer KI-basierten IDP-Plattform.