Ge­richts­fes­te Da­ten­ex­trak­ti­on im Kartellverfahren

Wie wir die Da­ten­ex­tra­ti­on für ei­nen gro­ßen Kon­zern er­folg­reich au­to­ma­ti­siert haben

Ein we­sent­li­cher Er­folgs­fak­tor für Scha­dens­er­satz­kla­gen in Kar­tell­ver­fah­ren ist die Da­ten­er­fas­sung und Da­ten­ex­trak­ti­on. Wir zei­gen Ih­nen an­hand ei­nes er­folg­reich durch­ge­führ­ten An­wen­dungs­fal­les aus dem Kon­zern­um­feld pra­xis­nah, wie wir re­le­van­te Da­ten au­to­ma­ti­siert er­fasst und Da­ten ex­tra­hiert ha­ben – mit­hil­fe un­se­rer KI-ba­sier­ten, für alle Un­ter­neh­mens­grö­ßen aus­ge­leg­ten, In­tel­li­gent Do­cu­ment Pro­ces­sing (IDP) Plattform.

Die Vor­ge­schich­te

Je­der kennt ver­mut­lich die Zah­lungs­ter­mi­nals, mit Hil­fe de­rer man be­quem fast über­all bar­geld­los be­zah­len kann. Für die­sen Ser­vice wer­den Ge­büh­ren an die Händ­ler be­rech­net. Was vie­le nicht wis­sen: Von 1990 bis 2014 muss­ten Un­ter­neh­men für je­den Zah­lungs­vor­gang mit Giro- oder EC-Kar­te ein von Bank­ver­bän­den fest­ge­leg­tes, ein­heit­li­ches Ent­gelt zah­len. 2017 be­gan­nen ers­te Un­ter­neh­men, auf­grund die­ses ab­ge­spro­che­nen Händ­le­rent­gel­tes, Kla­ge ge­gen die ho­hen Kar­ten­ge­büh­ren ein­zu­rei­chen und Scha­den­er­satz zu fordern.

Im Rah­men der Kla­gen muss­ten die Un­ter­neh­men den ent­stan­de­nen Scha­den glaub­haft und ge­richts­si­cher nach­wei­sen. Als Nach­weis für eine Kla­ge die­nen im All­ge­mei­nen ne­ben elek­tro­ni­schen Da­ten aus den ERP-Sys­te­men oft In­for­ma­tio­nen, die auf den un­ter­schied­lichs­ten Do­ku­men­ten vor­lie­gen. Es han­delt sich da­bei meist um un­glaub­lich vie­le Do­ku­men­te, die zu­sätz­lich noch kom­plex auf­ge­baut sind, un­ter­schied­lich aus­se­hen, ver­schie­den alt sind und je nach La­ge­rung auch mal in schlech­ter Qua­li­tät vor­lie­gen. So auch in die­sem Fall und die­se In­for­ma­tio­nen muss­ten jetzt in­ner­halb kur­zer Zeit ex­tra­hiert und in ge­richts­fes­te Da­ten um­ge­wan­delt werden.

Datenextraktion EC-Cash Rechnungen

Da­ten­ex­trak­ti­on von mehr als 1 Mio Da­ten­fel­dern – aus 15.000 Sei­ten – in 3 Wochen

In un­se­rem Fall muss­te ein gro­ßer Kon­zern aus mo­nat­li­chen Ab­rech­nun­gen für meh­re­re Stand­or­te im be­sag­ten Zeit­raum von fast 24 Jah­ren die be­nö­tig­ten In­for­ma­tio­nen ge­richts­fest vor­le­gen. Jede Mo­nats­rech­nung ent­hielt je Fi­lia­le ei­nen Block mit al­len Kar­ten­ar­ten. Jede Kar­ten­art wur­de ein­zeln auf­ge­schlüs­selt und ab­ge­rech­net. Die Do­ku­men­te hat­ten also in­halt­lich eine hier­ar­chi­sche Struk­tur, de­ren kom­ple­xer Auf­bau sich mit her­kömm­li­chen Ta­bel­len-Er­ken­nun­gen nicht er­fas­sen lässt. Jede Rech­nung war im Schnitt 200 Sei­ten lang.

Her­aus­for­de­run­gen in die­sem Projekt:

  • drei ver­schie­de­ne Da­ten­for­ma­te, da sich der be­trach­te­te Zeit­raum über mehr als zwei De­ka­den er­streck­te: ein­ge­scann­te Pa­pier­do­ku­men­te, PDF-Do­ku­men­te ohne Text­lay­er und di­gi­ta­le PDFs
  • un­sor­tier­te Do­ku­men­te, kei­ne in­halt­li­che Struk­tur an­hand von Da­tei­na­men oder an­de­rer Merk­ma­le er­kenn­bar, da vie­le Sys­te­me im Zeit­ver­lauf ge­nutzt wur­den und da­mit kei­ne ein­heit­li­che No­men­kla­tur vorlag
  • sehr vie­le Do­ku­men­te und sehr gro­ße Da­ten­men­ge: mehr als 1 Mio. Da­ten­fel­der in mehr als 120.000 Da­ten­sät­zen auf mehr als 15.000 Seiten
  • sehr kur­ze Frist für die Um­set­zung: 3 Wochen
  • 99% Kor­rekt­heit der Da­ten auf Feld­ebe­ne er­for­der­lich, um vor Ge­richt Be­stand zu haben
  • kom­ple­xer Auf­bau der Do­ku­men­te, da alle we­sent­li­chen Pa­ra­me­ter der Ab­rech­nung mit aus­ge­ge­ben wur­den (Kar­ten­art, Um­satz, An­zahl Trans­ak­tio­nen, Trans­ak­ti­ons­ar­ten, Ein­satz, Ba­sisum­satz, er­rech­ne­ter Um­satz, etc.) – alle muss­ten ex­tra­hiert wer­den, um eine Scha­dens­kal­ku­la­ti­on vor­neh­men zu können
  • stark ver­schach­tel­te Ab­rech­nungs­po­si­tio­nen, da die Ab­rech­nung zur bes­se­ren Nach­voll­zieh­bar­keit für den Men­schen auf­be­rei­tet wurden
  • hohe Kom­ple­xi­tät durch Sei­ten­um­brü­che, da oft Po­si­tio­nen nicht auf ei­ner Seite
  • se­lek­ti­ve Ex­trak­ti­on der Po­si­tio­nen, da nicht alle auf­ge­führ­ten Kar­ten­ar­ten be­trof­fen waren

Die Da­ten­ex­trak­ti­on mit der IDP-Plattform

Vor der Da­ten­ex­trak­ti­on: das Clustering

Die Vor­be­rei­tung für die Da­ten­ex­trak­ti­on er­folg­te durch Clus­te­ring der Sei­ten. Durch ein un­su­per­vi­sed, KI-ba­sier­tes Clus­te­ring wur­den die mehr als 15.000 Sei­ten schnell und voll­au­to­ma­tisch in die re­le­van­ten, gleich­ar­ti­gen Lay­outs grup­piert. Dar­auf auf­bau­end konn­ten alle an­de­ren KI-Mo­del­le spe­zi­ell für je­des Lay­outs trai­niert werden.

Die Da­ten­ex­trak­ti­on

Auf­grund der Spe­zia­li­sie­rung der KI-Mo­del­le war die Va­ri­anz ge­rin­ger und es wur­den er­heb­lich we­ni­ger Trai­nings­da­ten be­nö­tigt, was in ei­nem so kur­zen Zeit­raum es­sen­zi­ell ist.
Zur Er­ken­nung von je­dem der 19 zu ex­tra­hie­ren­dem Da­ten­fel­der wur­de je Lay­out ein KI-Mo­dell trai­niert. Das Trai­ning wur­de durch spe­zi­el­le KI-Trai­ner vor­ge­nom­men und er­folg­te ohne jede Pro­gram­mie­rung. Je Ele­ment wur­den ein­fach ei­ni­ge we­ni­ge Bei­spie­le an­ge­klickt. Das KI-Mo­dell er­kann­te im Hin­ter­grund au­to­ma­tisch Un­ter­schie­de und Ge­mein­sam­kei­ten der re­le­van­ten Fel­der. We­sent­li­che Ein­fluss­fak­to­ren wa­ren die lo­ka­le Struk­tur der Ele­men­te, ihre Po­si­ti­on auf der Sei­te und na­tür­lich Rich­tung, Ab­stand und Auf­bau der um­ge­ben­den In­for­ma­tio­nen. Nach le­dig­lich 5 bis 10 Bei­spie­len war die KI in der Lage ei­gen­stän­dig Vor­schlä­ge für po­ten­zi­el­le Ele­men­te zu ma­chen, die vom KI-Trai­ner le­dig­lich be­stä­tigt oder kor­ri­giert wer­den muss­ten. Durch die­ses Ac­ti­ve-Lear­ning ge­nann­te Ver­fah­ren wur­den die Ex­trak­ti­ons­mo­del­le ex­trem ef­fi­zi­ent angelernt.

Ne­ben den rei­nen Um­sät­zen, die zur Scha­den­be­rech­nung ei­gent­lich aus­rei­chen, wur­den zu­sätz­lich Da­ten aus­ge­le­sen, um die Va­li­die­rung zu op­ti­mie­ren. Dies wa­ren u. a.:

  • Transaktionsbetrag/Umsatz
  • An­zahl der Transaktionen
  • Ba­sis­da­ten für die Be­rech­nung der Ge­büh­ren: Ge­büh­ren­sät­ze, Min­dest­ge­büh­ren, Ge­büh­ren­art, Um­satz nach der die Ge­büh­ren be­rech­net wird

Nach der Da­ten­ex­trak­ti­on: die Validierung

Die Er­geb­nis­se wur­den nach Va­li­die­rungs­re­geln ge­prüft und hohe Er­ken­nungs­quo­ten bei mi­ni­ma­len Feh­ler­quo­ten er­reicht. Durch die um­fas­sen­de Da­ten­ex­trak­ti­on zu­sätz­li­cher De­tail­da­ten konn­ten die er­kann­ten Um­sät­ze schnell rech­ne­risch über­prüft und durch Mit­ar­bei­ter va­li­diert wer­den. Durch die rech­ne­ri­sche Über­prüf­bar­keit in Kom­bi­na­ti­on mit KI-ba­sier­ten An­oma­lie­er­ken­nungs­ver­fah­ren konn­te die Da­ten­qua­li­tät von über 99% auf Feld­ebe­ne er­reicht werden.

Datenextraktion EC-Cash Schlüssel zum Erfolg

Fa­zit & Er­geb­nis der Datenextraktion

  • Prä­zi­se Er­ken­nung von >99%
  • Da­ten­ex­trak­ti­on und Va­li­die­rung von mehr als 1 Mio. Da­ten­punk­ten in we­ni­ger als 3 Wochen
  • Hohe Kun­den­zu­frie­den­heit über die Qua­li­tät der Datenaufbereitung

Ein we­sent­li­cher Schlüs­sel zum Er­folg war die durch fol­gen­de Aspek­te er­reich­te Effizienz:

  • Durch das Clus­te­ring wur­den sehr schnell voll­au­to­ma­tisch die Lay­outs aus den un­sor­tier­ten Do­ku­men­ten­ber­gen grup­piert, so dass das KI-Mo­del­le ziel­ge­rich­tet für die Ex­trak­ti­on auf je­des Lay­out trai­niert wer­den konnten.
  • Auch das Aus­zeich­nen (Trai­ning der KI-Mo­del­le) er­folg­te aus­ge­spro­chen ef­fi­zi­ent: durch ein­fa­ches an­kli­cken der ge­such­ten In­for­ma­tio­nen. Den Rest – inkl. Ne­ga­tiv­bei­spie­le – mach­te das Sys­tem au­to­nom im Hin­ter­grund. Es sind un­glaub­lich schnell ers­te Vor­her­sa­gen mög­lich ge­we­sen und die aus­ge­zeich­ne­ten Da­ten stan­den di­rekt zur Verfügung.
  • Un­se­re Ex­trak­ti­ons­mo­del­le nutz­ten nicht nur lo­ka­le Struk­tu­ren oder Po­si­ti­ons­in­for­ma­tio­nen, son­dern den ge­sam­ten Kon­text der ge­such­ten Ele­men­te. Durch die Kom­bi­na­ti­on mit der Nut­zung der Kon­fi­den­zen konn­ten sehr schnell und mit we­ni­gen Bei­spie­len die Ex­trak­ti­ons­mo­del­le ex­trem prä­zi­se trai­niert werden.
  • Die Dif­fe­ren­zie­rung der drei Ar­ten von Da­ten auf Dokumenten‑, Stand­ort- und Trans­ak­ti­ons­eben hat es er­mög­licht, mit nur drei Bei­spie­len pro Art, der KI bei­zu­brin­gen, wel­che Da­ten zusammengehören.
inserve Kontakt

Ha­ben Sie noch Fragen?

Set­zen Sie sich gern mit uns in Ver­bin­dung, dann prü­fen wir die Mach­bar­keit und ge­ben Ih­nen eine kon­kre­te Einschätzung.

Der in­ser­ve Be­ra­tungs­pro­zess ist dar­auf aus­ge­legt, die pas­sen­de Au­to­ma­ti­sie­rungs­stra­te­gie für Ihr Ein­zel­pro­jekt zu fin­den. Ver­ein­ba­ren Sie ein per­sön­li­ches Ge­spräch für eine Kosten-Nutzen-Analyse!

Neh­men Sie Kon­takt auf. Ge­mein­sam fin­den wir her­aus, ob Ihr Pro­jekt ge­eig­net ist, um mit der IDP Platt­form und un­se­ren Ser­vices das für Sie bes­te Er­geb­nis herauszuholen.

Sie wol­len mehr De­tails über au­to­ma­ti­sier­te Datenerfassung?

Ver­pas­sen Sie kei­nen Bei­trag mehr und mel­den Sie sich noch heu­te für un­se­re ak­tu­el­len News an.

Mit un­se­rer IDP Platt­form ge­win­nen Sie wich­ti­ge Da­ten aus Ih­ren In­for­ma­tio­nen. Wie das geht: mehr In­fos zu un­se­rer IDP Plattform.

Ak­tu­el­le An­wen­dungs­fäl­le fin­den Sie auf un­se­rem Blog!

Web-Se­mi­na­re

WebSeminar IDP im Unternehmen

Pra­xis­bei­spie­le von Top Ex­per­ten aus der Praxis

Er­fah­ren Sie mehr über den Ein­satz von IDP in Un­ter­neh­men in un­se­ren Web-Se­mi­na­ren. Ler­nen Sie von un­se­ren Us­eCa­ses und klä­ren Sie in­di­vi­du­el­le Fra­gen mit un­se­ren Experten.

Di­rekt Ter­min vereinbaren!

Mit dem On­line-Tool Calend­ly kön­nen Sie di­rekt on­line Ih­ren Wunsch­ter­min wäh­len. Bu­chen Sie noch heu­te Ihre 15-mi­nü­ti­ge Be­spre­chung bei Diet­mar Nei­dig und er­hal­ten Sie eine Ka­len­der-Ein­la­dung mit Zu­gangs­link zu Ih­rer per­sön­li­chen Teams-Besprechung.

Dietmar Neidig

Diet­mar Neidig

CSO

mail dneidig@inserve.de
fon +49 511 515 271 62