Datenextraktion: Automatisierte Daten aus Dokumenten extrahieren

KI-Technologie effizient für die Datenextraktion einsetzen

Extraktion oder konkret Datenextraktion – was bedeutet das?

Bevor wir über Datenextraktion sprechen, fangen wir mit der Definition von Extraktion an. „Extraktion (von lateinisch extrahere; herausziehen, entnehmen) nennt man jedes Trennverfahren, bei dem mit Hilfe eines (festen, flüssigen oder gasförmigen) Extraktionsmittels eine oder mehrere Komponenten aus einem Stoffgemisch (aus festen, flüssigen oder gasförmigen Einzelstoffen bestehend), dem Extraktionsgut, herausgelöst wird.“ Quelle Wikipedia

Woran denken Sie, wenn Sie an Extraktion denken? Vielleicht an den Barista in Ihrem Lieblingscafé, der alle Parameter perfekt aufeinander abstimmt und mit der professionellen Siebträgermaschine einen unglaublich leckeren Espresso aus den gemahlenen Bohnen extrahiert? Oder denken Sie an die Daten in Ihrem Unternehmen, die aus verschiedensten Datenquellen zur Speicherung oder weiteren Verarbeitung noch extrahiert werden müssen?

Bei der Kaffee-Extraktion können Sie sich entspannt zurücklehnen, während der Barista die Arbeit macht und anschließend das Ergebnis genießen. Wenn Sie die Extraktion Ihrer Daten automatisieren, hat das einen ganz ähnlichen Effekt. Sie können sich Ihren Kernthemen widmen, während die KI die Daten extrahiert und anschließend von dem Ergebnis – den extrahierten Daten – profitieren. Aber gehen wir nochmal einen Schritt zurück.

Was ist Datenextraktion?

Laut Wikipedia ist „Datenextraktion die Handlung oder der Prozess des Abrufens von Daten aus Datenquellen zur weiteren Datenverarbeitung oder Datenspeicherung.“ Quelle: Wikipedia

Konkret bedeutet das, dass jede Form von Daten aus einer oder mehreren Informationsquellen herausgezogen werden. Die Informationsquellen können sein: PDF-Dateien, Briefe, Faxe, Formulare, E‑Mails, Verträge, usw. und über die verschiedensten Kanäle eingehen oder bereits im Unternehmensarchiv vorliegen. Sie machen somit Ihre Dokumente zu Daten und nutzen die enthaltenen Informationen. Die Informationen können Sie direkt in Ihre Kernsysteme per Schnittstelle übertragen lassen oder einfach als Excel-Datei erhalten.

Die Datenextraktion kann manuell oder automatisiert erfolgen. In den meisten Fällen bringt die automatisierte Datenextraktion deutliche Vorteile (siehe auch unseren Blogartikel „Manuelle vs. automatisierte Datenerfassung“). Eine optimale Lösung für die automatisierte Datenextraktion ist Intelligent Document Processing (IDP). Mit der KI-basierten inserve IDP-Plattform können Sie sogar große, heterogene Dokumentenbestände ohne Probleme innerhalb kurzer Zeit importieren, strukturieren und extrahieren.

Die Schritte in der IDP-Plattform

Folgende Schritte können auf dem Weg zur Extraktion Ihrer Daten über die IDP-Plattform ausgeführt werden (je nach Anwendungsfall alle oder nur einzelne Schritte):

Import

Große, heterogene Dokumentenbestände werden unstrukturiert importiert.

Strukturierung

Strukturierung der Stapel, Dokumente, Seiten durch Clustering und/oder Klassifizierung.

Auszeichnung & Training

Auszeichnung der gewünschten Informationen und Training des KI-Modells.

Extraktion

Vorhersagen oder auch Extraktion der Daten.

Bereitstellung

Bereitstellung der Daten für Folgeprozesse.

Welche Faktoren wirken sich auf die Datenextraktion aus?

Erschwert wird die Extraktion oft durch schlecht organisierte und völlig unstrukturierte Quellen. Bei der Datenextraktion aus sehr großen, heterogenen und unübersichtlichen Datenbeständen empfiehlt sich vorab eine Strukturierung der Datenquellen , um effizient und zielgerichtet auszeichnen sowie trainieren zu können und so im Anschluss die richtigen Daten zu extrahieren. Erfahrungsgemäße lassen sich durch eine vorangestellte Strukturierung deutlich bessere Ergebnisse erzielen.

Datenextraktion 1: Auszeichnung, KI-Training, Vorhersage Time

Wie lange dauert eine Datenextraktion?

Die Dauer für eine Datenextraktion lässt sich nicht pauschalisieren. Sie ist abhängig von der Anzahl der Dokumente, der Komplexität des Datenbestandes, den verschiedenen Layouttypen und der Anzahl der Personen, die das Training durchführen. Aus unserer Erfahrung können wir sagen, je unterschiedlicher die Layouts sind, desto länger dauert das Training und je größer der Datenbestand, desto wahrscheinlicher sind mehrere verschiedene Layouts enthalten.

Ein Beispiel:

1,4 Mio. Seiten mit bis zu 50 Datenpunkte pro Seite bedeutet 70.000.000 Informationen, die extrahiert werden müssen.
Sind alle 1.4 Mio. Seiten vom gleichen Dokumententyp geht die Extraktion der 70.000.000 Informationen schnell und kann in ein bis zwei Personentagen erledigt sein.

Die Schätzungen im vorangegangenen Beispiel ist nur eine Möglichkeit, da für die tatsächliche Dauer noch mehr Faktoren zusammenspielen. Ein Clustering auf Ihren Dokumentenbestand dagegen ermöglicht eine schnelle und weitaus genauere Einschätzung, unabhängig von der Anzahl der Dokumententypen und Layouts. Es hilft nicht nur Ihnen, Ihren Datenbestand besser zu verstehen. Auch wir bekommen einen Eindruck, wie komplex der Datenbestand ist und können dadurch eine konkretere Einschätzung des Aufwandes abgeben. Als Richtschnur: Wenn die Dokumente digital vorliegen, KANN so eine Aufwandschätzung bei kleinen Datenbeständen innerhalb eines Tages, bei großen Datenbeständen im Laufe einer Woche erfolgen.

Datenextraktion 1: Auszeichnung, KI-Training, Vorhersage what's next

Weiter geht es in Teil 2 mit Strukturierung

In Teil 2 unserer Serie „Datenextraktion & Strukturierung“ erzählen wir Ihnen mehr über Strukturierung. Bis dahin wünschen wir Ihnen eine schöne Zeit. Genießen Sie entspannt eine Tasse richten guten Kaffee. Und sollten Sie Fragen zum Thema automatisierte Datenextraktion haben, gibt Ihnen unser Experte Dietmar Neidig gern schon vorab weitere Einblicke in das Thema.

Direkt Termin vereinbaren!

Mit dem Online-Tool Calendly können Sie direkt online Ihren Wunschtermin wählen. Buchen Sie noch heute Ihre 15-minütige Besprechung bei Dietmar Neidig und erhalten Sie eine Kalender-Einladung mit Zugangslink zu Ihrer persönlichen Teams-Besprechung.

Jetzt direkt online Termin vereinbaren!

Dietmar Neidig

CSO

mail dneidig@inserve.de
fon +49 511 936 857 67

Anwendungsfälle finden Sie auf unserem Blog!

Individuelle Datenmodelle für mehr Flexibilität

Erfahren Sie in diesem Artikel, welche Vorteile das individuelle Training eines Datenmodells hat und wann ein Standardmodell nicht mehr ausreicht.

UseCase: Einführung der e‑Akte bei der Delvag Versicherungs-AG

Mit Unterstützung der inserve gelingt es den Versicherungsexperten:innen der Delvag eingehende Dokumente schnell und automatisiert zu verarbeiten. Bei der neu eingeführten e‑Akte werden eingehende Dokumente automatisch dem richtigen Schaden oder Vertrag zugeordnet.

Datenextraktion & Strukturierung Teil 3

Erfahren Sie im drittenTeil „Datenextraktion & Strukturierung“ alles darüber, wie Sie Daten aus Dokumenten extrahieren mittels Auszeichnung, KI-Training und Vorhersagen.

Datenextraktion & Strukturierung Teil 1

KI-Technologie effizient für die Datenextraktion einsetzen