Gerichtsfeste Datenextraktion im Kartellverfahren
Wie wir die Datenextration für einen großen Konzern erfolgreich automatisiert haben
Ein wesentlicher Erfolgsfaktor für Schadensersatzklagen in Kartellverfahren ist die Datenerfassung und Datenextraktion. Wir zeigen Ihnen anhand eines erfolgreich durchgeführten Anwendungsfalles aus dem Konzernumfeld praxisnah, wie wir relevante Daten automatisiert erfasst und Daten extrahiert haben – mithilfe unserer KI-basierten, für alle Unternehmensgrößen ausgelegten, Intelligent Document Processing (IDP) Plattform.
Die Vorgeschichte
Jeder kennt vermutlich die Zahlungsterminals, mit Hilfe derer man bequem fast überall bargeldlos bezahlen kann. Für diesen Service werden Gebühren an die Händler berechnet. Was viele nicht wissen: Von 1990 bis 2014 mussten Unternehmen für jeden Zahlungsvorgang mit Giro- oder EC-Karte ein von Bankverbänden festgelegtes, einheitliches Entgelt zahlen. 2017 begannen erste Unternehmen, aufgrund dieses abgesprochenen Händlerentgeltes, Klage gegen die hohen Kartengebühren einzureichen und Schadenersatz zu fordern.
Im Rahmen der Klagen mussten die Unternehmen den entstandenen Schaden glaubhaft und gerichtssicher nachweisen. Als Nachweis für eine Klage dienen im Allgemeinen neben elektronischen Daten aus den ERP-Systemen oft Informationen, die auf den unterschiedlichsten Dokumenten vorliegen. Es handelt sich dabei meist um unglaublich viele Dokumente, die zusätzlich noch komplex aufgebaut sind, unterschiedlich aussehen, verschieden alt sind und je nach Lagerung auch mal in schlechter Qualität vorliegen. So auch in diesem Fall und diese Informationen mussten jetzt innerhalb kurzer Zeit extrahiert und in gerichtsfeste Daten umgewandelt werden.
Datenextraktion von mehr als 1 Mio Datenfeldern – aus 15.000 Seiten – in 3 Wochen
In unserem Fall musste ein großer Konzern aus monatlichen Abrechnungen für mehrere Standorte im besagten Zeitraum von fast 24 Jahren die benötigten Informationen gerichtsfest vorlegen. Jede Monatsrechnung enthielt je Filiale einen Block mit allen Kartenarten. Jede Kartenart wurde einzeln aufgeschlüsselt und abgerechnet. Die Dokumente hatten also inhaltlich eine hierarchische Struktur, deren komplexer Aufbau sich mit herkömmlichen Tabellen-Erkennungen nicht erfassen lässt. Jede Rechnung war im Schnitt 200 Seiten lang.
Herausforderungen in diesem Projekt:
- drei verschiedene Datenformate, da sich der betrachtete Zeitraum über mehr als zwei Dekaden erstreckte: eingescannte Papierdokumente, PDF-Dokumente ohne Textlayer und digitale PDFs
- unsortierte Dokumente, keine inhaltliche Struktur anhand von Dateinamen oder anderer Merkmale erkennbar, da viele Systeme im Zeitverlauf genutzt wurden und damit keine einheitliche Nomenklatur vorlag
- sehr viele Dokumente und sehr große Datenmenge: mehr als 1 Mio. Datenfelder in mehr als 120.000 Datensätzen auf mehr als 15.000 Seiten
- sehr kurze Frist für die Umsetzung: 3 Wochen
- 99% Korrektheit der Daten auf Feldebene erforderlich, um vor Gericht Bestand zu haben
- komplexer Aufbau der Dokumente, da alle wesentlichen Parameter der Abrechnung mit ausgegeben wurden (Kartenart, Umsatz, Anzahl Transaktionen, Transaktionsarten, Einsatz, Basisumsatz, errechneter Umsatz, etc.) – alle mussten extrahiert werden, um eine Schadenskalkulation vornehmen zu können
- stark verschachtelte Abrechnungspositionen, da die Abrechnung zur besseren Nachvollziehbarkeit für den Menschen aufbereitet wurden
- hohe Komplexität durch Seitenumbrüche, da oft Positionen nicht auf einer Seite
- selektive Extraktion der Positionen, da nicht alle aufgeführten Kartenarten betroffen waren
Die Datenextraktion mit der IDP-Plattform
Vor der Datenextraktion: das Clustering
Die Vorbereitung für die Datenextraktion erfolgte durch Clustering der Seiten. Durch ein unsupervised, KI-basiertes Clustering wurden die mehr als 15.000 Seiten schnell und vollautomatisch in die relevanten, gleichartigen Layouts gruppiert. Darauf aufbauend konnten alle anderen KI-Modelle speziell für jedes Layouts trainiert werden.
Die Datenextraktion
Aufgrund der Spezialisierung der KI-Modelle war die Varianz geringer und es wurden erheblich weniger Trainingsdaten benötigt, was in einem so kurzen Zeitraum essenziell ist.
Zur Erkennung von jedem der 19 zu extrahierendem Datenfelder wurde je Layout ein KI-Modell trainiert. Das Training wurde durch spezielle KI-Trainer vorgenommen und erfolgte ohne jede Programmierung. Je Element wurden einfach einige wenige Beispiele angeklickt. Das KI-Modell erkannte im Hintergrund automatisch Unterschiede und Gemeinsamkeiten der relevanten Felder. Wesentliche Einflussfaktoren waren die lokale Struktur der Elemente, ihre Position auf der Seite und natürlich Richtung, Abstand und Aufbau der umgebenden Informationen. Nach lediglich 5 bis 10 Beispielen war die KI in der Lage eigenständig Vorschläge für potenzielle Elemente zu machen, die vom KI-Trainer lediglich bestätigt oder korrigiert werden mussten. Durch dieses Active-Learning genannte Verfahren wurden die Extraktionsmodelle extrem effizient angelernt.
Neben den reinen Umsätzen, die zur Schadenberechnung eigentlich ausreichen, wurden zusätzlich Daten ausgelesen, um die Validierung zu optimieren. Dies waren u. a.:
- Transaktionsbetrag/Umsatz
- Anzahl der Transaktionen
- Basisdaten für die Berechnung der Gebühren: Gebührensätze, Mindestgebühren, Gebührenart, Umsatz nach der die Gebühren berechnet wird
Nach der Datenextraktion: die Validierung
Die Ergebnisse wurden nach Validierungsregeln geprüft und hohe Erkennungsquoten bei minimalen Fehlerquoten erreicht. Durch die umfassende Datenextraktion zusätzlicher Detaildaten konnten die erkannten Umsätze schnell rechnerisch überprüft und durch Mitarbeiter validiert werden. Durch die rechnerische Überprüfbarkeit in Kombination mit KI-basierten Anomalieerkennungsverfahren konnte die Datenqualität von über 99% auf Feldebene erreicht werden.
Fazit & Ergebnis der Datenextraktion
- Präzise Erkennung von >99%
- Datenextraktion und Validierung von mehr als 1 Mio. Datenpunkten in weniger als 3 Wochen
- Hohe Kundenzufriedenheit über die Qualität der Datenaufbereitung
Ein wesentlicher Schlüssel zum Erfolg war die durch folgende Aspekte erreichte Effizienz:
- Durch das Clustering wurden sehr schnell vollautomatisch die Layouts aus den unsortierten Dokumentenbergen gruppiert, so dass das KI-Modelle zielgerichtet für die Extraktion auf jedes Layout trainiert werden konnten.
- Auch das Auszeichnen (Training der KI-Modelle) erfolgte ausgesprochen effizient: durch einfaches anklicken der gesuchten Informationen. Den Rest – inkl. Negativbeispiele – machte das System autonom im Hintergrund. Es sind unglaublich schnell erste Vorhersagen möglich gewesen und die ausgezeichneten Daten standen direkt zur Verfügung.
- Unsere Extraktionsmodelle nutzten nicht nur lokale Strukturen oder Positionsinformationen, sondern den gesamten Kontext der gesuchten Elemente. Durch die Kombination mit der Nutzung der Konfidenzen konnten sehr schnell und mit wenigen Beispielen die Extraktionsmodelle extrem präzise trainiert werden.
- Die Differenzierung der drei Arten von Daten auf Dokumenten‑, Standort- und Transaktionseben hat es ermöglicht, mit nur drei Beispielen pro Art, der KI beizubringen, welche Daten zusammengehören.
Haben Sie noch Fragen?
Setzen Sie sich gern mit uns in Verbindung, dann prüfen wir die Machbarkeit und geben Ihnen eine konkrete Einschätzung.
Der inserve Beratungsprozess ist darauf ausgelegt, die passende Automatisierungsstrategie für Ihr Einzelprojekt zu finden. Vereinbaren Sie ein persönliches Gespräch für eine Kosten-Nutzen-Analyse!
Nehmen Sie Kontakt auf. Gemeinsam finden wir heraus, ob Ihr Projekt geeignet ist, um mit der IDP Plattform und unseren Services das für Sie beste Ergebnis herauszuholen.
Sie wollen mehr Details über automatisierte Datenerfassung?
Verpassen Sie keinen Beitrag mehr und melden Sie sich noch heute für unsere aktuellen News an.
Mit unserer IDP Plattform gewinnen Sie wichtige Daten aus Ihren Informationen. Wie das geht: mehr Infos zu unserer IDP Plattform.
Aktuelle Anwendungsfälle finden Sie auf unserem Blog!
UseCase: Einführung der e‑Akte bei der Delvag Versicherungs-AG
Mit Unterstützung der inserve gelingt es den Versicherungsexperten:innen der Delvag eingehende Dokumente schnell und automatisiert zu verarbeiten. Bei der neu eingeführten e‑Akte werden eingehende Dokumente automatisch dem richtigen Schaden oder Vertrag zugeordnet.
KI in Versicherungen: Digitales Schadenmanagement am Beispiel Kfz-Schaden
Künstliche Intelligenz in Versicherungen: Digitales Schadenmanagement am Beispiel Kfz-Schaden. Jetzt von unseren Praxiserfahrungen profitieren!
Full Service mit der inserve IDP Plattform im Pflanzenschutzmittelkartell
Mit KI am Beispiel Pflanzenschutzmittelkartell große Dokumentenmengen in den Griff bekommen und in gerichtsfeste Daten wandeln. inserve
Web-Seminare
Praxisbeispiele von Top Experten aus der Praxis
Erfahren Sie mehr über den Einsatz von IDP in Unternehmen in unseren Web-Seminaren. Lernen Sie von unseren UseCases und klären Sie individuelle Fragen mit unseren Experten.
Direkt Termin vereinbaren!
Mit dem Online-Tool Calendly können Sie direkt online Ihren Wunschtermin wählen. Buchen Sie noch heute Ihre 15-minütige Besprechung bei Dietmar Neidig und erhalten Sie eine Kalender-Einladung mit Zugangslink zu Ihrer persönlichen Teams-Besprechung.