Die Struk­tu­rie­rung: eine gute Vor­be­rei­tung ist der Schlüssel

Um die Do­ku­men­te op­ti­mal auf die Ex­trak­ti­on vor­zu­be­rei­ten ist es sinn­voll , die Do­ku­men­te vor­ab zu struk­tu­rie­ren. Durch eine Struk­tu­rie­rung zu Be­ginn des Pro­zes­ses ver­bes­sert sich die Er­ken­nungs­leis­tung, sinkt die Feh­ler­quo­te und letzt­lich spa­ren Sie Auf­wän­de in der Nachbereitung.

Zwei Ver­fah­ren für die op­ti­ma­le Strukturierung

Das Clus­te­ring­ver­fah­ren

Beim Clus­te­ring er­hal­ten Sie ei­nen gro­ben Über­blick, was über­haupt in dem Do­ku­men­ten­be­stand steckt. Da­bei stellt die KI die Klas­sen selbst zu­sam­men, je nach In­halt der Do­ku­men­te. Das Clus­te­ring er­folgt un­ge­stützt, auf Text- oder Bild­ebe­ne. Es wer­den kei­ne Trai­nings­da­ten be­nö­tigt. Die Do­ku­men­te wer­den im­por­tiert und auf Knopf­druck er­hal­ten Sie in­ner­halb kur­zer Zeit ein Er­geb­nis und da­mit ei­nen ers­ten Ein­druck von den In­hal­ten Ih­res Do­ku­men­ten­be­stands. Das Er­geb­nis fasst gleich­ar­ti­ge Do­ku­men­te zu Clus­ter­grup­pen zusammen.

Bei­spiel:

  1. Im­port von 50.000 völ­lig un­sor­tier­ten Rechnungen.
  2. Von der KI er­mit­tel­tes Ergebnis: 
    • 25.000 Do­ku­men­te sind Rech­nun­gen von Lie­fe­rant A,
    • 20.000 Do­ku­men­te sind Rech­nun­gen von Lie­fe­rant B und
    • 5.000 Do­ku­men­te sind AGB.

Klas­si­fi­ka­ti­ons­ver­fah­ren

Der so­ge­nann­te Do­cu­ment­clas­si­fier ist ein­setz­bar auf ver­schie­de­nen Ebe­nen von Do­ku­men­ten­ty­pen. Er grup­piert Do­ku­men­ten in vor­ab, in­di­vi­du­ell ab­ge­stimm­te und de­fi­nier­te Klas­sen – ganz nach Ih­ren Wün­schen und Bedürfnissen.

Bei­spiel:

  1. Clus­te­ring­ver­fah­ren
  2. De­fi­ni­ti­on von Klas­sen (ein­fa­ches Bei­spiel, es sind aber auch deut­li­che kom­ple­xe­re Klas­sen mög­lich)
    a. Rech­nun­gen von Lie­fe­rant A Zeit­raum 1990 bis 1999
    b. Rech­nun­gen von Lie­fe­rant A Zeit­raum 2000 bis 2010
    c. Rech­nun­gen von Lie­fe­rant B Zeit­raum 1990 bis 1999
    d. Rech­nun­gen von Lie­fe­rant B Zeit­raum 2000 bis 2010
  3. Er­geb­nis:
    a. 20.000 Rech­nun­gen von Lie­fe­rant A aus dem Zeit­raum 1990 bis 1999
    b. 5.000 Rech­nun­gen von Lie­fe­rant A aus dem Zeit­raum 2000 bis 2010
    c. 5.000 Rech­nun­gen von Lie­fe­rant B aus dem Zeit­raum 1990 bis 1999
    d. 15.000 Rech­nun­gen von Lie­fe­rant B aus dem Zeit­raum von 2000 bis 2010

Bei­de Ver­fah­ren kön­nen auf­ein­an­der auf­bau­en oder un­ab­hän­gig von­ein­an­der ein­ge­setzt wer­den. Hier pro­fi­tie­ren Sie von  ma­xi­ma­ler Fle­xi­bi­li­tät. Oft ist es sinn­voll, zu­erst eine gro­be Struk­tu­rie­rung mit­hil­fe von Clus­te­ring durch­zu­füh­ren und dann nach­ge­la­gert eine fei­ne­re Sor­tie­rung mit­hil­fe von Klas­si­fi­ka­ti­on. Auch denk­bar wäre, dass das Clus­te­ring schon aus­reicht und nicht zwin­gend eine wei­te­re Klas­si­fi­ka­ti­on durch­ge­führt wer­den muss. Mög­lich ist auch, dass schon be­kannt ist, was im Do­ku­men­ten­be­stand ent­hal­ten oder die­ser gar nicht so un­über­sicht­lich ist. In die­sem Fall kann di­rekt mit der Klas­si­fi­ka­ti­on oder gar der Ex­trak­ti­on ge­star­tet wer­den . Alle Mög­lich­kei­ten kön­nen fle­xi­bel kom­bi­niert wer­den – je nach Aus­gang­la­ge und Ih­rem Bedarf.

Datenextraktion 2: Strukturierung Vorteile

Wo­bei Ih­nen die Struk­tu­rie­rung hilft

  • Sie er­hal­ten ei­nen Über­blick über den Da­ten­be­stand und ver­ste­hen ihn besser.
  • Zeit­er­spar­nis bei der Aus­zeich­nung der Do­ku­men­te für das Trai­ning: Eine Struk­tu­rie­rung der Do­ku­men­te hilft Ih­nen bei ei­ner ziel­ge­rich­te­ten Aus­zeich­nung. Bei­spiel: Bei 100 gleich­ar­ti­gen Be­le­gen hin­ter­ein­an­der kennt der Mit­ar­bei­ter nach kur­zer Zeit die Struk­tur der Do­ku­men­te und fin­det die aus­zu­zeich­nen­den In­for­ma­tio­nen deut­lich schnel­ler als bei un­sor­tier­ten Do­ku­men­ten. Denn bei un­sor­tier­ten Do­ku­men­ten muss er sich je­des Mal neu ori­en­tie­ren und su­chen, wo sich die In­for­ma­tio­nen auf dem Do­ku­ment befinden.
  • Ver­bes­se­rung der Er­ken­nungs­leis­tung: Auch der KI hilft eine gute Struk­tu­rie­rung beim Trai­ning und ver­bes­sert die Er­ken­nungs­leis­tung und die Da­ten­qua­li­tät. So wie der Mensch sich auf ein Lay­out ein­stel­len kann, lernt auch die KI schnel­ler und lie­fert zu­ver­läs­si­ge­re Er­geb­nis­se, wenn die Do­ku­men­te im­mer ähn­lich struk­tu­riert sind.
  • Op­ti­mier­ter Ex­port: Durch die Struk­tu­rie­rung ist der Ex­port, ein­heit­li­cher und bes­ser sor­tiert, so dass die Da­ten leich­ter kor­ri­giert und wei­ter­ver­ar­bei­tet wer­den kön­nen.
    Bei­spiel: Ein Rech­nungs­lay­out ent­hält im­mer eine US­tID, wo­ge­gen in ei­nem an­de­ren Rech­nungs­lay­out die­se In­for­ma­ti­on nie vor­han­den ist. Sind die­se Lay­outs beim Ex­port un­struk­tu­riert, lässt sich bei der Kor­rek­tur nicht so­fort er­ken­nen, ob ein Feh­ler vor­liegt und die US­tID ver­se­hent­lich nicht mit ex­por­tiert wur­de oder ob es sich um das Lay­out han­delt, wo gar kei­ne vor­han­den war. Sind die Lay­outs grup­piert er­kennt man so­fort, dass ein Feh­ler vor­liegt, wenn eine US­tID in der ent­spre­chen­den Grup­pe fehlt.
Datenextraktion 2: Auszeichnung, KI-Training, Vorhersage what's next

Wie geht es nach der Struk­tu­rie­rung weiter?

In dem drit­ten Teil un­se­rer Se­rie „Da­ten­ex­trak­ti­on & Struk­tu­rie­rung“ er­zäh­len wir Ih­nen mehr über Aus­zeich­nung, Trai­ning und Vor­her­sa­gen. Falls Sie den ers­ten Teil ver­passt ha­ben – geht es hier lang zu „Da­ten­ex­trak­ti­on & Struk­tu­rie­rung Teil 1“.

Soll­ten Sie Fra­gen zur au­to­ma­ti­sier­ten Da­ten­ex­trak­ti­on ha­ben, gibt Ih­nen un­ser Ex­per­te Diet­mar Nei­dig gern schon vor­ab nä­he­re Ein­bli­cke in das Thema.

Di­rekt Ter­min vereinbaren!

Mit dem On­line-Tool Calend­ly kön­nen Sie di­rekt on­line Ih­ren Wunsch­ter­min wäh­len. Bu­chen Sie noch heu­te Ihre 15-mi­nü­ti­ge Be­spre­chung bei Diet­mar Nei­dig und er­hal­ten Sie eine Ka­len­der-Ein­la­dung mit Zu­gangs­link zu Ih­rer per­sön­li­chen Teams-Besprechung.

Dietmar Neidig

Diet­mar Neidig

CSO

mail dneidig@inserve.de
fon +49 511 936 857 67

An­wen­dungs­fäl­le fin­den Sie auf un­se­rem Blog!