Auszeichnung, KI-Training und Vorhersagen
Jetzt geht es an die eigentliche Datenextraktion, das Auszeichnen, das KI-Training und die Vorhersagen. Dafür werden die Informationen auf einem Teil der Dokumente ausgezeichnet, das KI-Modell trainiert und anschließend die Daten exportiert. Aber schauen wir uns das einmal genauer an.
Die Auszeichnung der Datenpunkte
Bei der Auszeichnung werden auf einem Teil der Dokumente die einzelnen Datenpunkte für die KI gekennzeichnet. Dies passiert händisch durch einen Menschen – den KI-Trainer. Er zeigt der KI durch die Auszeichnung, welches die zu extrahierenden Informationen auf dem Dokument sind (z.B. das ist das gewünschte Datum, das ist die gesuchte Rechnungsnummer, etc.). Hier zahlt sich die gute Strukturierung der Dokumente vorab aus. Denn je besser die Strukturierung ist, desto schneller geht die Auszeichnung im Anschluss. Wenn sich der KI-Trainer nicht auf jedem Dokument neu orientieren und die auszuzeichnenden Informationen suchen muss, kann er die gesuchten Informationen schneller finden und auszeichnen.
Ein Beispiel:
Sie können sich die Auszeichnung vorstellen, wie einem Kind beizubringen, was ein Apfel, eine Birne oder eine Erdbeere ist. Sie zeigen dem Kind z.B. ein Bild von der jeweiligen Frucht und das Kind erkennt später eigenständig, was um was für eine Frucht es sich in seiner Hand handelt.
KI-Training – it‘s magic – oder die Erstellung des KI-Modells
Beim KI-Training passiert die eigentliche Magie automatisiert in der Maschine. Für den Menschen ist es lediglich ein Knopfdruck: Die KI verwendet die Trainingsdaten, um ein Modell zu erzeugen. Mit diesem Modell lassen sich anschließend die Vorhersagen durchführen.
Um bei unserem Beispiel zu bleiben: Jetzt bildet das Kleinkind das Gehirn aus, um das vorab gelernte später eigenständig anzuwenden.
Vorhersagen oder auch die eigentliche Extraktion
Die Vorhersagen sind die eigentliche Extraktion der Daten. Sie bauen auf dem KI-Training auf. Auch hier gilt, je besser das KI-Training, desto exakter die Vorhersagen. Zur Kontrolle werden die Vorhersagen erstmal nur auf einem Teilbestand angewendet (Stichprobe). Je nachdem, wie gut das Ergebnis ist, wird ggf. nachtrainiert, bevor die Extraktion der Nutzdaten auf dem gesamten Datenbestand durchgeführt wird.
Im Beispiel unseres Kleinkindes bedeutet das die Anwendung des Gelernten. Das Kind bekommt jetzt eine Kiste mit Obst und sortiert Äpfel, Birnen und Erdbeeren in neue Kisten.
Das Ergebnis und der Faktor Erkennungsleistung
Nach der Extraktion zeigt sich, wie gut die Erkennungsleistung letztendlich wirklich ist. Mit einer guten Vorbereitung kann man den Aufwand am Ende deutlich reduziert. Eine 10 % schlechtere Erkennungsleistung kann bedeuten, dass von 70.000.000 Datenpunkten 7.000.000 Datenpunkte überprüft werden müssen. Letztendlich gewinnt man nichts, wenn man vorne Zeit auf Kosten der Erkennungsleistung einspart. Diese Zeit hängt man am Ende um ein Vielfaches wieder an, wenn man die extrahierten Daten manuell über Wochen bereinigen muss.
Fazit
Durch diese flexibel aufeinander aufbauenden Module kann die inserve IDP-Plattform mit kleinen und großen Datenbeständen sehr gut umgehen und am Ende ein optimales Ergebnis erzielen. Sollten Sie Fragen zum Thema automatisierte Datenextraktion haben, gibt Ihnen unser Experte Dietmar Neidig gern in einer Demo-Session Einblicke in die IDP-Plattform.
Direkt Termin vereinbaren!
Mit dem Online-Tool Calendly können Sie direkt online Ihren Wunschtermin wählen. Buchen Sie noch heute Ihre 15-minütige Besprechung bei Dietmar Neidig und erhalten Sie eine Kalender-Einladung mit Zugangslink zu Ihrer persönlichen Teams-Besprechung.
Anwendungsfälle finden Sie auf unserem Blog!
Individuelle Datenmodelle für mehr Flexibilität
Erfahren Sie in diesem Artikel, welche Vorteile das individuelle Training eines Datenmodells hat und wann ein Standardmodell nicht mehr ausreicht.
UseCase: Einführung der e‑Akte bei der Delvag Versicherungs-AG
Mit Unterstützung der inserve gelingt es den Versicherungsexperten:innen der Delvag eingehende Dokumente schnell und automatisiert zu verarbeiten. Bei der neu eingeführten e‑Akte werden eingehende Dokumente automatisch dem richtigen Schaden oder Vertrag zugeordnet.
Datenextraktion & Strukturierung Teil 2
Erfahren Sie im zweiten Teil „Datenextraktion & Strukturierung“ alles darüber, wie Sie Dokumente mithilfe von Clustering und Klassifizierung strukturieren bevor Sie Daten extrahieren.