Komplexe Datenextraktion im EC-Cash-Kartell

Gerichtsfeste Datenextraktion im Kartellverfahren

Wie wir die Datenextration für einen großen Konzern erfolgreich automatisiert haben

Ein wesentlicher Erfolgsfaktor für Schadensersatzklagen in Kartellverfahren ist die Datenerfassung und Datenextraktion. Wir zeigen Ihnen anhand eines erfolgreich durchgeführten Anwendungsfalles aus dem Konzernumfeld praxisnah, wie wir relevante Daten automatisiert erfasst und Daten extrahiert haben – mithilfe unserer KI-basierten, für alle Unternehmensgrößen ausgelegten, Intelligent Document Processing (IDP) Plattform.

Die Vorgeschichte

Jeder kennt vermutlich die Zahlungsterminals, mit Hilfe derer man bequem fast überall bargeldlos bezahlen kann. Für diesen Service werden Gebühren an die Händler berechnet. Was viele nicht wissen: Von 1990 bis 2014 mussten Unternehmen für jeden Zahlungsvorgang mit Giro- oder EC-Karte ein von Bankverbänden festgelegtes, einheitliches Entgelt zahlen. 2017 begannen erste Unternehmen, aufgrund dieses abgesprochenen Händlerentgeltes, Klage gegen die hohen Kartengebühren einzureichen und Schadenersatz zu fordern.

Im Rahmen der Klagen mussten die Unternehmen den entstandenen Schaden glaubhaft und gerichtssicher nachweisen. Als Nachweis für eine Klage dienen im Allgemeinen neben elektronischen Daten aus den ERP-Systemen oft Informationen, die auf den unterschiedlichsten Dokumenten vorliegen. Es handelt sich dabei meist um unglaublich viele Dokumente, die zusätzlich noch komplex aufgebaut sind, unterschiedlich aussehen, verschieden alt sind und je nach Lagerung auch mal in schlechter Qualität vorliegen. So auch in diesem Fall und diese Informationen mussten jetzt innerhalb kurzer Zeit extrahiert und in gerichtsfeste Daten umgewandelt werden.

Datenextraktion von mehr als 1 Mio Datenfeldern – aus 15.000 Seiten – in 3 Wochen

In unserem Fall musste ein großer Konzern aus monatlichen Abrechnungen für mehrere Standorte im besagten Zeitraum von fast 24 Jahren die benötigten Informationen gerichtsfest vorlegen. Jede Monatsrechnung enthielt je Filiale einen Block mit allen Kartenarten. Jede Kartenart wurde einzeln aufgeschlüsselt und abgerechnet. Die Dokumente hatten also inhaltlich eine hierarchische Struktur, deren komplexer Aufbau sich mit herkömmlichen Tabellen-Erkennungen nicht erfassen lässt. Jede Rechnung war im Schnitt 200 Seiten lang.

Herausforderungen in diesem Projekt:

drei verschiedene Datenformate, da sich der betrachtete Zeitraum über mehr als zwei Dekaden erstreckte: eingescannte Papierdokumente, PDF-Dokumente ohne Textlayer und digitale PDFs
unsortierte Dokumente, keine inhaltliche Struktur anhand von Dateinamen oder anderer Merkmale erkennbar, da viele Systeme im Zeitverlauf genutzt wurden und damit keine einheitliche Nomenklatur vorlag
sehr viele Dokumente und sehr große Datenmenge: mehr als 1 Mio. Datenfelder in mehr als 120.000 Datensätzen auf mehr als 15.000 Seiten
sehr kurze Frist für die Umsetzung: 3 Wochen
99% Korrektheit der Daten auf Feldebene erforderlich, um vor Gericht Bestand zu haben
komplexer Aufbau der Dokumente, da alle wesentlichen Parameter der Abrechnung mit ausgegeben wurden (Kartenart, Umsatz, Anzahl Transaktionen, Transaktionsarten, Einsatz, Basisumsatz, errechneter Umsatz, etc.) – alle mussten extrahiert werden, um eine Schadenskalkulation vornehmen zu können
stark verschachtelte Abrechnungspositionen, da die Abrechnung zur besseren Nachvollziehbarkeit für den Menschen aufbereitet wurden
hohe Komplexität durch Seitenumbrüche, da oft Positionen nicht auf einer Seite
selektive Extraktion der Positionen, da nicht alle aufgeführten Kartenarten betroffen waren

Die Datenextraktion mit der IDP-Plattform

Vor der Datenextraktion: das Clustering

Die Vorbereitung für die Datenextraktion erfolgte durch Clustering der Seiten. Durch ein unsupervised, KI-basiertes Clustering wurden die mehr als 15.000 Seiten schnell und vollautomatisch in die relevanten, gleichartigen Layouts gruppiert. Darauf aufbauend konnten alle anderen KI-Modelle speziell für jedes Layouts trainiert werden.

Die Datenextraktion

Aufgrund der Spezialisierung der KI-Modelle war die Varianz geringer und es wurden erheblich weniger Trainingsdaten benötigt, was in einem so kurzen Zeitraum essenziell ist.
Zur Erkennung von jedem der 19 zu extrahierendem Datenfelder wurde je Layout ein KI-Modell trainiert. Das Training wurde durch spezielle KI-Trainer vorgenommen und erfolgte ohne jede Programmierung. Je Element wurden einfach einige wenige Beispiele angeklickt. Das KI-Modell erkannte im Hintergrund automatisch Unterschiede und Gemeinsamkeiten der relevanten Felder. Wesentliche Einflussfaktoren waren die lokale Struktur der Elemente, ihre Position auf der Seite und natürlich Richtung, Abstand und Aufbau der umgebenden Informationen. Nach lediglich 5 bis 10 Beispielen war die KI in der Lage eigenständig Vorschläge für potenzielle Elemente zu machen, die vom KI-Trainer lediglich bestätigt oder korrigiert werden mussten. Durch dieses Active-Learning genannte Verfahren wurden die Extraktionsmodelle extrem effizient angelernt.

Neben den reinen Umsätzen, die zur Schadenberechnung eigentlich ausreichen, wurden zusätzlich Daten ausgelesen, um die Validierung zu optimieren. Dies waren u. a.:

Transaktionsbetrag/Umsatz
Anzahl der Transaktionen
Basisdaten für die Berechnung der Gebühren: Gebührensätze, Mindestgebühren, Gebührenart, Umsatz nach der die Gebühren berechnet wird

Nach der Datenextraktion: die Validierung

Die Ergebnisse wurden nach Validierungsregeln geprüft und hohe Erkennungsquoten bei minimalen Fehlerquoten erreicht. Durch die umfassende Datenextraktion zusätzlicher Detaildaten konnten die erkannten Umsätze schnell rechnerisch überprüft und durch Mitarbeiter validiert werden. Durch die rechnerische Überprüfbarkeit in Kombination mit KI-basierten Anomalieerkennungsverfahren konnte die Datenqualität von über 99% auf Feldebene erreicht werden.

Datenextraktion EC-Cash Schlüssel zum Erfolg

Fazit & Ergebnis der Datenextraktion

Präzise Erkennung von >99%
Datenextraktion und Validierung von mehr als 1 Mio. Datenpunkten in weniger als 3 Wochen
Hohe Kundenzufriedenheit über die Qualität der Datenaufbereitung

Ein wesentlicher Schlüssel zum Erfolg war die durch folgende Aspekte erreichte Effizienz:

Durch das Clustering wurden sehr schnell vollautomatisch die Layouts aus den unsortierten Dokumentenbergen gruppiert, so dass das KI-Modelle zielgerichtet für die Extraktion auf jedes Layout trainiert werden konnten.
Auch das Auszeichnen (Training der KI-Modelle) erfolgte ausgesprochen effizient: durch einfaches anklicken der gesuchten Informationen. Den Rest – inkl. Negativbeispiele – machte das System autonom im Hintergrund. Es sind unglaublich schnell erste Vorhersagen möglich gewesen und die ausgezeichneten Daten standen direkt zur Verfügung.
Unsere Extraktionsmodelle nutzten nicht nur lokale Strukturen oder Positionsinformationen, sondern den gesamten Kontext der gesuchten Elemente. Durch die Kombination mit der Nutzung der Konfidenzen konnten sehr schnell und mit wenigen Beispielen die Extraktionsmodelle extrem präzise trainiert werden.
Die Differenzierung der drei Arten von Daten auf Dokumenten‑, Standort- und Transaktionseben hat es ermöglicht, mit nur drei Beispielen pro Art, der KI beizubringen, welche Daten zusammengehören.

Haben Sie noch Fragen?

Setzen Sie sich gern mit uns in Verbindung, dann prüfen wir die Machbarkeit und geben Ihnen eine konkrete Einschätzung.

Der inserve Beratungsprozess ist darauf ausgelegt, die passende Automatisierungsstrategie für Ihr Einzelprojekt zu finden. Vereinbaren Sie ein persönliches Gespräch für eine Kosten-Nutzen-Analyse!

Nehmen Sie Kontakt auf. Gemeinsam finden wir heraus, ob Ihr Projekt geeignet ist, um mit der IDP Plattform und unseren Services das für Sie beste Ergebnis herauszuholen.

Sie wollen mehr Details über automatisierte Datenerfassung?

Verpassen Sie keinen Beitrag mehr und melden Sie sich noch heute für unsere aktuellen News an.

Mit unserer IDP Plattform gewinnen Sie wichtige Daten aus Ihren Informationen. Wie das geht: mehr Infos zu unserer IDP Plattform.

Aktuelle Anwendungsfälle finden Sie auf unserem Blog!

UseCase: Einführung der e‑Akte bei der Delvag Versicherungs-AG

Mit Unterstützung der inserve gelingt es den Versicherungsexperten:innen der Delvag eingehende Dokumente schnell und automatisiert zu verarbeiten. Bei der neu eingeführten e‑Akte werden eingehende Dokumente automatisch dem richtigen Schaden oder Vertrag zugeordnet.

KI in Versicherungen: Digitales Schadenmanagement am Beispiel Kfz-Schaden

Künstliche Intelligenz in Versicherungen: Digitales Schadenmanagement am Beispiel Kfz-Schaden. Jetzt von unseren Praxiserfahrungen profitieren!

Full Service mit der inserve IDP Plattform im Pflanzenschutzmittelkartell

Mit KI am Beispiel Pflanzenschutzmittelkartell große Dokumentenmengen in den Griff bekommen und in gerichtsfeste Daten wandeln. inserve

Web-Seminare

Praxisbeispiele von Top Experten aus der Praxis

Erfahren Sie mehr über den Einsatz von IDP in Unternehmen in unseren Web-Seminaren. Lernen Sie von unseren UseCases und klären Sie individuelle Fragen mit unseren Experten.

Zu unseren Events!

Direkt Termin vereinbaren!

Mit dem Online-Tool Calendly können Sie direkt online Ihren Wunschtermin wählen. Buchen Sie noch heute Ihre 15-minütige Besprechung bei Dietmar Neidig und erhalten Sie eine Kalender-Einladung mit Zugangslink zu Ihrer persönlichen Teams-Besprechung.

Jetzt direkt online Termin vereinbaren!

Dietmar Neidig

CSO

mail dneidig@inserve.de
fon +49 511 515 271 62

Kom­ple­xe Da­ten­ex­trak­ti­on im EC-Cash-Kartell

Ge­richts­fes­te Da­ten­ex­trak­ti­on im Kartellverfahren

Wie wir die Da­ten­ex­tra­ti­on für ei­nen gro­ßen Kon­zern er­folg­reich au­to­ma­ti­siert haben

Die Vor­ge­schich­te

Da­ten­ex­trak­ti­on von mehr als 1 Mio Da­ten­fel­dern – aus 15.000 Sei­ten – in 3 Wochen

Die Da­ten­ex­trak­ti­on mit der IDP-Plattform

Vor der Da­ten­ex­trak­ti­on: das Clustering

Die Da­ten­ex­trak­ti­on

Nach der Da­ten­ex­trak­ti­on: die Validierung

Fa­zit & Er­geb­nis der Datenextraktion

Ha­ben Sie noch Fragen?

Sie wol­len mehr De­tails über au­to­ma­ti­sier­te Datenerfassung?

Ak­tu­el­le An­wen­dungs­fäl­le fin­den Sie auf un­se­rem Blog!

Us­eCa­se: Ein­füh­rung der e‑Akte bei der Del­vag Versicherungs-AG

KI in Ver­si­che­run­gen: Di­gi­ta­les Scha­den­ma­nage­ment am Bei­spiel Kfz-Schaden

Full Ser­vice mit der in­ser­ve IDP Platt­form im Pflanzenschutzmittelkartell

Web-Se­mi­na­re

Pra­xis­bei­spie­le von Top Ex­per­ten aus der Praxis

Diet­mar Neidig

Ka­te­go­rien

Komplexe Datenextraktion im EC-Cash-Kartell

Gerichtsfeste Datenextraktion im Kartellverfahren

Wie wir die Datenextration für einen großen Konzern erfolgreich automatisiert haben

Die Vorgeschichte

Datenextraktion von mehr als 1 Mio Datenfeldern – aus 15.000 Seiten – in 3 Wochen

Die Datenextraktion mit der IDP-Plattform

Vor der Datenextraktion: das Clustering

Die Datenextraktion

Nach der Datenextraktion: die Validierung

Fazit & Ergebnis der Datenextraktion

Haben Sie noch Fragen?

Sie wollen mehr Details über automatisierte Datenerfassung?

Aktuelle Anwendungsfälle finden Sie auf unserem Blog!

UseCase: Einführung der e‑Akte bei der Delvag Versicherungs-AG

KI in Versicherungen: Digitales Schadenmanagement am Beispiel Kfz-Schaden

Full Service mit der inserve IDP Plattform im Pflanzenschutzmittelkartell

Web-Seminare

Praxisbeispiele von Top Experten aus der Praxis

Dietmar Neidig

Kategorien