Wie Sie beim KI-Trai­ning von Trai­nings- und Aus­zeich­nungs­ef­fi­zi­enz so­wie ho­her Er­ken­nungs­leis­tung profitieren

Sie ste­hen am An­fang ei­nes KI-Pro­jek­tes und wol­len Ihre Do­ku­men­te au­to­ma­ti­siert ver­ar­bei­ten. Jetzt ha­ben Sie die Mög­lich­keit ein Stan­dard­mo­dell zu nut­zen oder ein in­di­vi­du­el­les Da­ten­mo­dell trai­nie­ren zu las­sen. Wo lie­gen die Vor- und Nach­tei­le? Was ist für Ihr Pro­jekt die rich­ti­ge Vor­ge­hens­wei­se? Wann lohnt sich das KI-Trai­ning ei­nes in­di­vi­du­el­len Datenmodells?

Vor­trai­nier­te Stan­dard­mo­del­le sind su­per, so­lan­ge sie die ge­wünsch­te Er­ken­nungs­leis­tung er­rei­chen und die be­nö­tig­ten At­tri­bu­te (In­for­ma­tio­nen) trai­niert wur­den. Denn nur wenn At­tri­bu­te im Stan­dard­mo­dell vor­trai­niert wur­den, kön­nen sie auch ex­tra­hiert wer­den. An­pas­sun­gen auf in­di­vi­du­el­le At­tri­bu­te sieht das Stan­dard­mo­dell nicht vor. Ein gu­tes Bei­spiel für sol­che Stan­dard-In­for­ma­tio­nen ist das Rech­nungs­da­tum. Für die Ex­trak­ti­on des Rech­nungs­da­tums in ein­fa­chen Do­ku­men­ten­be­stän­den eig­nen sich Stan­dard­mo­del­le oft sehr gut.

Aber was ist, wenn Sie mehr Fle­xi­bi­li­tät be­nö­ti­gen? Wenn das vor­trai­nier­te Stan­dard­mo­dell nicht passt, weil ganz an­de­re Da­ten be­nö­tigt wer­den als ent­hal­ten sind? Oder die Er­ken­nungs­leis­tung am Ende nicht passt, da der Do­ku­men­ten­be­stand zu kom­plex ist und mit ei­nem Stan­dard­mo­dell nur eine schlech­te Er­ken­nungs­leis­tung er­reicht wird?

Hier kann das Stan­dard­mo­dell schnell nicht mehr aus­rei­chen und Sie brau­chen eine in­di­vi­du­el­le­re, fle­xi­ble­re Lö­sung. In die­sem Fall ist das in­di­vi­du­ell an­ge­leg­te bzw. an­ge­pass­te und trai­nier­te Da­ten­mo­dell die bes­se­re Wahl. Es bie­tet Ih­nen ein Ma­xi­mum an Fle­xi­bi­li­tät. Da­mit las­sen sich auch in­di­vi­du­el­le oder stark bran­chen­be­zo­ge­nen Fäl­le schnell trainieren.

Aber schau­en wir uns doch mal kon­kret an, wann, wo und wie Sie vom Ein­satz ei­nes in­di­vi­du­ell trai­nier­ten Da­ten­mo­dells profitieren.

KI-Training Auszeichnungseffizienz

Mehr Trai­nings­ef­fi­zi­enz und Fle­xi­bi­li­tät bei in­di­vi­du­el­len Datenmodellen

Das fürs KI-Trai­ning be­nö­tig­te Aus­zeich­nen der In­for­ma­tio­nen geht meist re­la­tiv schnell. Es müs­sen oft nur we­ni­ge Do­ku­men­te vor­trai­niert und Da­ten aus­ge­zeich­net werden.

Da­bei kön­nen auch Do­ku­men­te mit vie­len ver­schie­de­nen Da­ten ohne Pro­ble­me ver­ar­bei­tet wer­den. KI-Trainer:innen zei­gen der KI bei ei­ner Aus­wahl von Do­ku­men­ten durch An­kli­cken der ge­such­ten In­for­ma­tio­nen, wel­che die Rich­ti­gen sind. Es ist für die KI egal, wie vie­le an­de­re In­for­ma­tio­nen das je­wei­li­ge Do­ku­ment noch ent­hält. Die KI er­kennt nach dem Trai­ning ziel­ge­nau die Ge­such­te. Es kön­nen also auch von Do­ku­men­ten mit sehr vie­len Da­ten ei­ni­ge we­ni­ge, vor­her de­fi­nier­te Da­ten, ex­tra­hiert wer­den und das mit ei­ner sehr gu­ten Erkennungsleistung.

Die zu ex­tra­hie­ren­den In­for­ma­tio­nen kön­nen völ­lig fle­xi­bel ge­wählt wer­den. Ganz egal ob es sich um ein­zel­ne In­for­ma­tio­nen oder gan­ze Blö­cke, wie z.B. eine kom­plet­te An­schrift, han­delt. Bei der Ex­trak­ti­on der Da­ten sind Sie nicht auf vor­trai­nier­te Stan­dard­wer­te beschränkt.

Bei­spie­le, bei de­nen das KI-Trai­ning von in­di­vi­du­el­len Da­ten­mo­del­len häu­fig die bes­se­re Wahl ist:

  • For­mu­la­re von Ver­si­che­run­gen oder an­de­re Schrift­sät­ze las­sen sich oft nicht in ein Stan­dard­mo­dell pressen.
  • For­mu­lar mit 100 Fel­dern, von de­nen nur zwei Fel­der ex­por­tiert wer­den sol­len: hier kann mit Trai­ning das in­di­vi­du­el­le Mo­dell ge­nau auf die­se An­for­de­run­gen trai­niert wer­den und dann ex­akt die ge­wünsch­ten In­for­ma­tio­nen ex­tra­hiert. Mit Trai­ning statt Pro­gram­mie­rung lässt sich das mit re­la­tiv we­nig Auf­wand in kur­zer Zeit abbilden.
  • Sehr spe­zi­el­le In­for­ma­tio­nen, wie z.B. Rah­men­num­mer und Ak­ku­num­mer bei Fahrradversicherungen
  • Kom­ple­xe Rech­nungs­do­ku­men­te mit sehr spe­zi­el­len In­for­ma­tio­nen z.B. in den Produktbeschreibungen
  • Ein­gangs­post mit in­di­vi­du­el­len In­for­ma­tio­nen (z.B. bei Scha­den­mel­dun­gen die Ex­trak­ti­on von Kun­den- oder Versicherungsnummern)

Vor­tei­le von KI-Trai­ning in­di­vi­du­el­ler Datenmodelle:

1.

Je­des be­lie­bi­ge Do­ku­ment kann trai­niert wer­den und jede ge­wünsch­te In­for­ma­ti­on ist grund­sätz­lich extrahierbar.

2.

Das Da­ten­mo­dell kann ohne gro­ßen Auf­wand auch wäh­rend ei­nes lau­fen­den Pro­jek­tes noch­mal an­ge­passt wer­den. Es kön­nen je­der­zeit schnell neue At­tri­bu­te dazu ge­nom­men und trai­niert wer­den, da alle At­tri­bu­te von der KI se­pa­rat be­trach­tet wer­den. Es gibt kei­ne Quer­aus­wir­kun­gen zwi­schen At­tri­bu­ten. Die Er­ken­nungs­leis­tung ei­nes ein­zel­nen At­tri­buts än­dert sich nicht, wenn an ei­nem an­de­ren et­was ge­än­dert wird.

3.

Hohe Er­ken­nungs­leis­tung: Das KI-Trai­ning der in­di­vi­du­el­len Pro­jekt­do­ku­men­te stei­gert die Er­ken­nungs­leis­tung deutlich.

4.

Ef­fi­zi­ent: Da un­se­re in­di­vi­du­el­len Mo­del­le nicht über­la­den sind, ha­ben wir sehr kur­ze Trai­nings­zei­ten. Die rei­ne Re­chen­zeit der IDP-Platt­form be­trägt nur ein bis zwei Mi­nu­ten! Da­durch er­hal­ten wir nach dem Trai­ning di­rekt ein Feed­back von der KI und kön­nen so­fort wei­ter­ma­chen. Dies spart un­glaub­lich viel Zeit. Wir kön­nen schon un­mit­tel­bar nach dem Trai­ning das Er­geb­nis se­hen und be­ur­tei­len, ob das Trai­ning passt oder noch wei­ter aus­ge­zeich­net wer­den muss. Es sum­mie­ren sich kei­ne lan­gen Leer­lauf­zei­ten. Wir ar­bei­ten da­durch sehr ef­fi­zi­ent und hal­ten den Auf­wand ge­ring. Da­her kön­nen wir un­se­ren Kun­den eine sehr gute Qua­li­tät zu fai­ren Prei­sen anbieten.

Ac­ti­ve Lear­ning un­ter­stützt das KI-Training

Als Ac­ti­ve Lear­ning wird eine Trai­nings­un­ter­stüt­zung be­zeich­net. Da­bei legt die KI selbst­stän­dig aus­ge­wähl­te Trai­nings­bei­spie­le vor, bei de­nen die Er­ken­nungs­leis­tung noch nicht aus­reicht. Es han­delt sich da­bei um be­son­ders aus­sa­ge­kräf­ti­ge Sei­ten, die an­schlie­ßend sehr ge­zielt und ef­fi­zi­ent noch­mal aus­ge­zeich­net wer­den kön­nen. Es wer­den da­bei nur die Aus­zeich­nun­gen vom Sys­tem aus­ge­ge­ben, die nicht rich­tig er­kannt wur­den. Die an­de­ren At­tri­bu­te müs­sen da­durch nicht noch­mal aus­ge­zeich­net wer­den. Das trägt dazu bei, dass wir mit we­ni­gen Aus­zeich­nun­gen ein op­ti­ma­les Mo­dell er­stel­len können.

Bei Feh­lern in der At­tri­bu­ter­ken­nung pro­fi­tie­ren wir zu­sätz­lich von der Nach­voll­zieh­bar­keit un­se­rer IDP-Platt­form. Un­se­re KI-Trainer:innen kön­nen je­der­zeit nach­voll­zie­hen, war­um ein At­tri­but als sol­ches er­kannt wur­de und wel­ches die Ent­schei­dungs­fak­to­ren der KI sind. Da­durch kön­nen sie ef­fi­zi­ent nach­trai­nie­ren und die Feh­ler­quo­te verringern.

Stei­ge­rung der Auszeichnungseffizienz

Um das KI-Trai­ning mög­lichst ef­fi­zi­ent zu ge­stal­ten, ar­bei­ten wir mit ei­nem spe­zi­el­len Tool, was die KI-Trainer:innen bei der rein me­cha­ni­schen Mar­kie­rung der In­for­ma­tio­nen auf ei­nem Do­ku­ment un­ter­stützt. Die­ses Tool sorgt da­für, dass über den In­for­ma­tio­nen auf dem Do­ku­ment be­reits Text­lay­er (vor­erkann­te Bo­xen) lie­gen, die bei der Aus­zeich­nung nur noch an­ge­klickt wer­den. Das geht deut­lich schnel­ler, als ei­nen Kas­ten um jede aus­zu­zeich­nen­de In­for­ma­ti­on zu zie­hen. Er­schwe­rend kommt noch dazu, dass man beim Zie­hen ei­nes Kas­tens sehr ge­nau ar­bei­ten muss, da die In­for­ma­tio­nen oft­mals dicht zusammenstehen.

Eine wei­te­re Ver­ein­fa­chung stellt die Mul­ti­aus­zeich­nung dar. Hier pro­fi­tie­ren die KI-Trainer:innen da­von, dass meh­re­re iden­ti­sche In­for­ma­tio­nen gleich­zei­tig aus­ge­zeich­net wer­den kön­nen. Da­bei wird ein Kas­ten über die ent­spre­chen­den Text­lay­er ge­zo­gen und die ent­spre­chen­den In­for­ma­tio­nen wer­den gleich­zei­tig als ein­zel­ne In­for­ma­tio­nen aus­ge­zeich­net. Das be­deu­tet für das KI-Trai­ning eine enor­me Zeitersparnis.

An Kun­den­zie­le an­ge­pass­te Erkennungsleistung

Wie gut die trai­nier­ten At­tri­bu­te er­kannt wer­den, hängt von ver­schie­de­nen Fak­to­ren ab. Da sind z.B. die Qua­li­tät der Do­ku­men­te, die Kom­ple­xi­tät der At­tri­bu­te und die He­te­ro­ge­ni­tät des Da­ten­be­stan­des ent­schei­dend. Aus Er­fah­rung kön­nen wir au­ßer­dem sa­gen, dass die Er­ken­nungs­leis­tung im­mer hö­her ist, wenn man das Mo­dell auf dem zu ver­ar­bei­ten­den Do­ku­men­ten­be­stand trainiert.

Ein wei­te­rer Punkt, wo man die Er­ken­nungs­leis­tung im Vor­aus schon op­ti­mie­ren kann, ist die lay­out­ba­sier­te Her­an­ge­hens­wei­se. Das be­deu­tet ähn­li­che Do­ku­men­te wer­den vor­ab schon zu­sam­men­ge­zo­gen und dann auch zu­sam­men ver­ar­bei­tet. Da­durch lässt sich die Er­ken­nungs­leis­tung noch­mal deut­lich verbessern.

KI-Training Auszeichnungseffizienz Kosten/Nutzen

Die Kos­ten – Nut­zen – Frage

Wie vie­le At­tri­bu­te müs­sen ei­gent­lich aus­zeich­net wer­den, um ein gu­tes Er­geb­nis zu er­rei­chen? Im All­ge­mei­nen rei­chen der KI oft schon zehn bis 20 Bei­spie­le für ein sehr gu­tes Er­geb­nis. Al­ler­dings wird die Er­ken­nungs­leis­tung bes­ser, je mehr man aus­zeich­net. Das gilt je­doch mit klei­nen Ein­schrän­kun­gen. Denn an­fangs steigt die Kur­ve für die Er­ken­nungs­leis­tung stark an und die Er­ken­nungs­leis­tung wird mit we­ni­gen Aus­zeich­nun­gen deut­lich bes­ser. Ab ei­nem ge­wis­sen Punkt je­doch steigt sie nur noch sehr lang­sam an. Dann steht der Auf­wand ir­gend­wann in kei­nem gu­ten Ver­hält­nis mehr zum Nut­zen. Man be­nö­tigt im­mer mehr Zeit für das KI-Trai­ning mit ei­nem im­mer klei­ner wer­den­den An­stieg der Trainingseffizienz.

Es kann schon mal vor­kom­men, dass man für das letz­te Pro­zent noch­mal die glei­che Zeit in das KI-Trai­ning steckt, wie für die 99 % vor­her. Hier muss man dann im Ein­zel­fall ent­schei­den, ab wann sich der Auf­wand für sein Pro­jekt mög­li­cher­wei­se nicht mehr lohnt. Selbst­ver­ständ­lich un­ter Be­rück­sich­ti­gung der Zie­le des Kun­den. Mög­li­che Fäl­le, wo sich der Auf­wand lohnt bzw. not­wen­dig ist:

  • die Feh­ler­to­le­ranz muss bei 0 % liegen
  • das Mo­dell soll für eine dau­er­haf­te Dun­kel­ver­ar­bei­tung ein­ge­setzt werden
  • dass Mo­dell soll auf ei­nem un­glaub­lich gro­ßen Da­ten­be­stand an­ge­wen­det werden.

In die­sen Fäl­len kön­nen auch we­ni­ge Pro­zent­punk­te ent­schei­dend sein und da­mit den Auf­wand wert. Im Ge­gen­satz dazu, kann das Trai­ning be­reits früh­zei­tig ge­stoppt und Auf­wän­de ein­ge­spart wer­den, wenn die Er­ken­nungs­leis­tung vor­zei­tig er­reicht ist. So­mit wer­den kei­ne Auf­wän­de ge­ne­riert, von de­nen am Ende nie­mand profitiert.

Je­der­zeit die Er­ken­nungs­leis­tung beim KI-Trai­ning im Griff

Doch wie be­hal­ten wir die Er­ken­nungs­leis­tung im Blick? Die Er­ken­nungs­leis­tung ha­ben wir wäh­rend des Trai­nings­pro­zes­ses je­der­zeit über Ma­chi­ne Lear­ning und fach­li­che Me­tri­ken im Griff. Da­bei zei­gen Ma­chi­ne Lear­ning Me­tri­ken den Entwickler:innen so­wie KI-Trainer:innen den Sta­tus und fach­li­che Me­tri­ken den Kun­den. So kön­nen wir uns im Lau­fe des Trai­nings­pro­zes­ses die Me­tri­ken an­se­hen und ent­schei­den, ob es sinn­voll ist, wei­ter zu trai­nie­ren oder ob die Feh­ler­quo­te be­reits ak­zep­ta­bel ist.

Wel­che Vor- und Nach­tei­le ha­ben Standardmodelle?

Stan­dard­mo­del­le ha­ben den gro­ßen Vor­teil, dass sie out-of-the-box so­fort ver­füg­bar sind. Kun­den müs­sen kei­ne Do­ku­men­te zur Ver­fü­gung stel­len, um erst­mal über­haupt das Mo­dell zu trai­nie­ren. Es kann di­rekt mit dem kom­plet­ten Do­ku­men­ten­be­stand ge­star­tet wer­den. Hier­durch kann Zeit ein­ge­spart wer­den. Lei­der auf Kos­ten der Fle­xi­bi­li­tät und oft auch der Qualität.

Stan­dard­mo­del­le müs­sen zwar nur ein­mal, da­für aber im­mer auf gro­ßen Da­ten­men­gen trai­niert wer­den. Da­durch sind die ir­gend­wann ein­mal fest­ge­leg­ten At­tri­bu­te nicht auf die für die­ses Pro­jekt aus­zu­wer­ten­de Do­ku­men­te trai­niert. Der ers­te Punkt schränkt die Fle­xi­bi­li­tät der zu ex­tra­hie­ren­den Da­ten ein, letz­te­res kann zu ei­ner schlech­te­ren Er­ken­nungs­leis­tung füh­ren. Zu­dem kann man die Er­ken­nungs­leis­tung nicht wäh­rend des Trai­nings­pro­zes­ses op­ti­mie­ren oder be­ein­flus­sen. Hier muss man mit dem Er­geb­nis le­ben, was au­to­ma­tisch out-of-the-box er­zeugt wird.

KI-Training Auszeichnungseffizienz Fazit

Fa­zit – ist KI-Trai­ning von in­di­vi­du­el­len Da­ten­mo­del­len das rich­ti­ge für mein Projekt?

Stan­dard­mo­del­le sind nicht per se schlecht, al­ler­dings pas­sen sie nicht für je­des Pro­jekt. Sie ha­ben ei­nen ein­fa­chen Da­ten­be­stand, wol­len nur Stan­dard­da­ten ex­tra­hiert ha­ben und sind mit dem Er­geb­nis der Da­ten­ex­trak­ti­on auf je­den Fall fein? Su­per, dann passt das Stan­dard­mo­dell für die­ses Projekt.

Wenn die Pa­ra­me­ter aber nicht auf Ihr Pro­jekt pas­sen, soll­ten Sie sich be­züg­lich ei­nes in­di­vi­du­el­len Da­ten­mo­dells be­ra­ten las­sen. Denn auch, wenn Stan­dard­mo­del­len so­fort out-of-the-box ver­füg­bar sind, gibt es in der Fle­xi­bi­li­tät und der Qua­li­tät der Er­ken­nungs­leis­tung di­ver­se Ein­schrän­kun­gen. So­bald Da­ten ex­tra­hiert wer­den sol­len, die nicht im Stan­dard­mo­dell vor­trai­niert sind, sto­ßen die­se Mo­del­le an ihre Gren­zen. Auch kön­nen Sie auf die Er­ken­nungs­leis­tung kei­nen Ein­fluss mehr neh­men. Wenn Ihr Da­ten­be­stand oder das Do­ku­men­ten­lay­out kom­ple­xer sind, be­ein­flusst dies die Er­ken­nungs­leis­tung und da­mit die Qua­li­tät der ex­tra­hier­ten Daten.

An­ders ge­stal­tet sich das bei in­di­vi­du­el­len Mo­del­len. Hier kann na­he­zu al­les in­di­vi­du­ell nach Kun­den­wunsch trai­niert wer­den. Man ist bei der Ex­trak­ti­on der Da­ten nicht auf be­stehen­de Stan­dard­mo­del­le und dar­in ent­hal­te­ne Da­ten be­schränkt. Sie ha­ben die vol­le Fle­xi­bi­li­tät auch wäh­rend des Pro­jek­tes und kön­nen die Er­ken­nungs­leis­tung steu­ern, bis zu der von Ih­nen ak­zep­tier­ten Fehlertoleranz.

Sie wol­len er­fah­ren, wie wir IDP er­folg­reich in Ih­rem Un­ter­neh­men implementieren?

Bu­chen Sie noch heu­te Ihre 15-mi­nü­ti­ge Be­spre­chung bei Diet­mar Nei­dig. Mit dem On­line-Tool Calend­ly kön­nen Sie di­rekt on­line Ih­ren Wunsch­ter­min wäh­len. An­schlie­ßend er­hal­ten Sie eine Ka­len­der-Ein­la­dung mit Zu­gangs­link zu Ih­rer per­sön­li­chen Teams-Besprechung. 

Dietmar Neidig

Diet­mar Neidig

CSO

mail dneidig@inserve.de
fon +49 511 515 271 62

Wei­te­re An­wen­dungs­fäl­le fin­den Sie auf un­se­rem Blog!