KI-Tech­no­lo­gie ef­fi­zi­ent für die Da­ten­ex­trak­ti­on einsetzen

Ex­trak­ti­on oder kon­kret Da­ten­ex­trak­ti­on – was be­deu­tet das?

Be­vor wir über Da­ten­ex­trak­ti­on spre­chen, fan­gen wir mit der De­fi­ni­ti­on von Ex­trak­ti­on an. „Ex­trak­ti­on (von la­tei­nisch ex­tra­he­re; her­aus­zie­hen, ent­neh­men) nennt man je­des Trenn­ver­fah­ren, bei dem mit Hil­fe ei­nes (fes­ten, flüs­si­gen oder gas­för­mi­gen) Ex­trak­ti­ons­mit­tels eine oder meh­re­re Kom­po­nen­ten aus ei­nem Stoff­ge­misch (aus fes­ten, flüs­si­gen oder gas­för­mi­gen Ein­zel­stof­fen be­stehend), dem Ex­trak­ti­ons­gut, her­aus­ge­löst wird.“ Quel­le Wikipedia

Wor­an den­ken Sie, wenn Sie an Ex­trak­ti­on den­ken? Viel­leicht an den Ba­ris­ta in Ih­rem Lieb­lings­ca­fé, der alle Pa­ra­me­ter per­fekt auf­ein­an­der ab­stimmt und mit der pro­fes­sio­nel­len Sieb­trä­ger­ma­schi­ne ei­nen un­glaub­lich le­cke­ren Es­pres­so aus den ge­mah­le­nen Boh­nen ex­tra­hiert? Oder den­ken Sie an die Da­ten in Ih­rem Un­ter­neh­men, die aus ver­schie­dens­ten Da­ten­quel­len zur Spei­che­rung oder wei­te­ren Ver­ar­bei­tung noch ex­tra­hiert wer­den müssen?

Bei der Kaf­fee-Ex­trak­ti­on kön­nen Sie sich ent­spannt zu­rück­leh­nen, wäh­rend der Ba­ris­ta die Ar­beit macht und an­schlie­ßend das Er­geb­nis ge­nie­ßen. Wenn Sie die Ex­trak­ti­on Ih­rer Da­ten au­to­ma­ti­sie­ren, hat das ei­nen ganz ähn­li­chen Ef­fekt. Sie kön­nen sich Ih­ren Kern­the­men wid­men, wäh­rend die KI die Da­ten ex­tra­hiert und an­schlie­ßend von dem Er­geb­nis – den ex­tra­hier­ten Da­ten – pro­fi­tie­ren. Aber ge­hen wir noch­mal ei­nen Schritt zurück.

Was ist Datenextraktion?

Laut Wi­ki­pe­dia ist „Da­ten­ex­trak­ti­on die Hand­lung oder der Pro­zess des Ab­ru­fens von Da­ten aus Da­ten­quel­len zur wei­te­ren Da­ten­ver­ar­bei­tung oder Da­ten­spei­che­rung.“ Quel­le: Wikipedia

Kon­kret be­deu­tet das, dass jede Form von Da­ten aus ei­ner oder meh­re­ren In­for­ma­ti­ons­quel­len her­aus­ge­zo­gen wer­den. Die In­for­ma­ti­ons­quel­len kön­nen sein: PDF-Da­tei­en, Brie­fe, Faxe, For­mu­la­re, E‑Mails, Ver­trä­ge, usw. und über die ver­schie­dens­ten Ka­nä­le ein­ge­hen oder be­reits im Un­ter­neh­mens­ar­chiv vor­lie­gen. Sie ma­chen so­mit Ihre Do­ku­men­te zu Da­ten und nut­zen die ent­hal­te­nen In­for­ma­tio­nen. Die In­for­ma­tio­nen kön­nen Sie di­rekt in Ihre Kern­sys­te­me per Schnitt­stel­le über­tra­gen las­sen oder ein­fach als Ex­cel-Da­tei erhalten.

Die Da­ten­ex­trak­ti­on kann ma­nu­ell oder au­to­ma­ti­siert er­fol­gen. In den meis­ten Fäl­len bringt die au­to­ma­ti­sier­te Da­ten­ex­trak­ti­on deut­li­che Vor­tei­le (sie­he auch un­se­ren Blog­ar­ti­kel „Ma­nu­el­le vs. au­to­ma­ti­sier­te Da­ten­er­fas­sung“). Eine op­ti­ma­le Lö­sung für die au­to­ma­ti­sier­te Da­ten­ex­trak­ti­on ist In­tel­li­gent Do­cu­ment Pro­ces­sing (IDP). Mit der KI-ba­sier­ten in­ser­ve IDP-Platt­form kön­nen Sie so­gar gro­ße, he­te­ro­ge­ne Do­ku­men­ten­be­stän­de ohne Pro­ble­me in­ner­halb kur­zer Zeit im­por­tie­ren, struk­tu­rie­ren und extrahieren.

Die Schrit­te in der IDP-Plattform

Fol­gen­de Schrit­te kön­nen auf dem Weg zur Ex­trak­ti­on Ih­rer Da­ten über die IDP-Platt­form aus­ge­führt wer­den (je nach An­wen­dungs­fall alle oder nur ein­zel­ne Schritte):

Strukturierung

Im­port

Gro­ße, he­te­ro­ge­ne Do­ku­men­ten­be­stän­de wer­den un­struk­tu­riert importiert.

Klassifizierung

Struk­tu­rie­rung

Struk­tu­rie­rung der Sta­pel, Do­ku­men­te, Sei­ten durch Clus­te­ring und/oder Klassifizierung.

IDP Training

Aus­zeich­nung & Training

Aus­zeich­nung der ge­wünsch­ten In­for­ma­tio­nen und Trai­ning des KI-Modells.

Extraktion

Ex­trak­ti­on

Vor­her­sa­gen oder auch Ex­trak­ti­on der Daten.

Bereitstellung

Be­reit­stel­lung

Be­reit­stel­lung der Da­ten für Folgeprozesse.

Wel­che Fak­to­ren wir­ken sich auf die Da­ten­ex­trak­ti­on aus?

Er­schwert wird die Ex­trak­ti­on oft durch schlecht or­ga­ni­sier­te und völ­lig un­struk­tu­rier­te Quel­len. Bei der Da­ten­ex­trak­ti­on aus sehr gro­ßen, he­te­ro­ge­nen und un­über­sicht­li­chen Da­ten­be­stän­den emp­fiehlt sich vor­ab eine Struk­tu­rie­rung der Da­ten­quel­len , um ef­fi­zi­ent und ziel­ge­rich­tet aus­zeich­nen so­wie trai­nie­ren zu kön­nen und so im An­schluss die rich­ti­gen Da­ten zu ex­tra­hie­ren. Er­fah­rungs­ge­mä­ße las­sen sich durch eine vor­an­ge­stell­te Struk­tu­rie­rung deut­lich bes­se­re Er­geb­nis­se erzielen.

Datenextraktion 1: Auszeichnung, KI-Training, Vorhersage Time

Wie lan­ge dau­ert eine Datenextraktion?

Die Dau­er für eine Da­ten­ex­trak­ti­on lässt sich nicht pau­scha­li­sie­ren. Sie ist ab­hän­gig von der An­zahl der Do­ku­men­te, der Kom­ple­xi­tät des Da­ten­be­stan­des, den ver­schie­de­nen Lay­out­ty­pen und der An­zahl der Per­so­nen, die das Trai­ning durch­füh­ren. Aus un­se­rer Er­fah­rung kön­nen wir sa­gen, je un­ter­schied­li­cher die Lay­outs sind, des­to län­ger dau­ert das Trai­ning und je grö­ßer der Da­ten­be­stand, des­to wahr­schein­li­cher sind meh­re­re ver­schie­de­ne Lay­outs enthalten.

Ein Bei­spiel:

  • 1,4 Mio. Sei­ten mit bis zu 50 Da­ten­punk­te pro Sei­te be­deu­tet 70.000.000 In­for­ma­tio­nen, die ex­tra­hiert wer­den müssen.
  • Sind alle 1.4 Mio. Sei­ten vom glei­chen Do­ku­men­ten­typ geht die Ex­trak­ti­on der 70.000.000 In­for­ma­tio­nen schnell und kann in ein bis zwei Per­so­nen­ta­gen er­le­digt sein.

Die Schät­zun­gen im vor­an­ge­gan­ge­nen Bei­spiel ist nur eine Mög­lich­keit, da für die tat­säch­li­che Dau­er noch mehr Fak­to­ren zu­sam­men­spie­len. Ein Clus­te­ring auf Ih­ren Do­ku­men­ten­be­stand da­ge­gen er­mög­licht eine schnel­le und weit­aus ge­naue­re Ein­schät­zung, un­ab­hän­gig von der An­zahl der Do­ku­men­ten­ty­pen und Lay­outs. Es hilft nicht nur Ih­nen, Ih­ren Da­ten­be­stand bes­ser zu ver­ste­hen. Auch wir be­kom­men ei­nen Ein­druck, wie kom­plex der Da­ten­be­stand ist und kön­nen da­durch eine kon­kre­te­re Ein­schät­zung des Auf­wan­des ab­ge­ben. Als Richt­schnur: Wenn die Do­ku­men­te di­gi­tal vor­lie­gen, KANN so eine Auf­wand­schät­zung bei klei­nen Da­ten­be­stän­den in­ner­halb ei­nes Ta­ges, bei gro­ßen Da­ten­be­stän­den im Lau­fe ei­ner Wo­che erfolgen.

Datenextraktion 1: Auszeichnung, KI-Training, Vorhersage what's next

Wei­ter geht es in Teil 2 mit Strukturierung

In Teil 2 un­se­rer Se­rie „Da­ten­ex­trak­ti­on & Struk­tu­rie­rung“ er­zäh­len wir Ih­nen mehr über Struk­tu­rie­rung. Bis da­hin wün­schen wir Ih­nen eine schö­ne Zeit. Ge­nie­ßen Sie ent­spannt eine Tas­se rich­ten gu­ten Kaf­fee. Und soll­ten Sie Fra­gen zum The­ma au­to­ma­ti­sier­te Da­ten­ex­trak­ti­on ha­ben, gibt Ih­nen un­ser Ex­per­te Diet­mar Nei­dig gern schon vor­ab wei­te­re Ein­bli­cke in das Thema.

Di­rekt Ter­min vereinbaren!

Mit dem On­line-Tool Calend­ly kön­nen Sie di­rekt on­line Ih­ren Wunsch­ter­min wäh­len. Bu­chen Sie noch heu­te Ihre 15-mi­nü­ti­ge Be­spre­chung bei Diet­mar Nei­dig und er­hal­ten Sie eine Ka­len­der-Ein­la­dung mit Zu­gangs­link zu Ih­rer per­sön­li­chen Teams-Besprechung.

Dietmar Neidig

Diet­mar Neidig

CSO

mail dneidig@inserve.de
fon +49 511 515 271 62

An­wen­dungs­fäl­le fin­den Sie auf un­se­rem Blog!