Was steckt drin in Ih­ren Dokumenten?

Fin­den Sie her­aus, wel­che In­for­ma­tio­nen sich in Ih­ren Do­ku­men­ten ver­ber­gen! Clus­te­ring ist der ers­te Schritt, um Ih­ren Do­ku­men­ten­be­stand zu ver­ste­hen. Da­durch fin­den Sie schnell, ef­fi­zi­ent und kos­ten­güns­tig her­aus, wel­che Be­leg­ty­pen und Lay­outs in wel­cher An­zahl vor­han­den sind, und ob sich eine Da­ten­ana­ly­se für den Da­ten­be­stand lohnt. Da­bei ist es egal, ob es sich um Rech­nun­gen, Lie­fer­schei­ne, Per­so­nal­ak­ten oder sons­ti­ge Do­ku­men­te han­delt, ob sie schon di­gi­ta­li­siert sind oder bis­her nur in Pa­pier­form vor­lie­gen. Ma­chen Sie den ers­ten Schritt, um her­aus­zu­fin­den, wie Sie von Ih­ren Da­ten pro­fi­tie­ren und sie ge­winn­brin­gend für Ihr Un­ter­neh­men ein­set­zen können.

Wozu brau­chen Sie Clustering?

Ge­ra­de bei gro­ßen Do­ku­men­ten­be­stän­den mit ei­ner kom­ple­xen Struk­tur ist es sinn­voll, erst ein­mal die Do­ku­men­te vor­zu­sor­tie­ren. So fin­den Sie her­aus, ob Sie über­haupt die be­nö­tig­ten In­for­ma­tio­nen aus den Do­ku­men­ten her­aus­fil­tern kön­nen. Hier­für set­zen wir Clus­te­ring ein. Clus­te­ring ist ein Hilfs­in­stru­ment, um au­to­ma­tisch nach Ähn­lich­kei­ten in Do­ku­men­ten zu su­chen und die­se zu sor­tie­ren. Da­bei wird au­to­ma­ti­siert in den Do­ku­men­ten nach Mus­tern und Fak­to­ren ge­sucht, um Ähn­li­che und Glei­che dann in Clus­ter zu­sam­men­zu­fas­sen. Das Er­geb­nis lie­fert Ih­nen vie­le Mehr­wer­te und re­du­ziert die Kom­ple­xi­tät gro­ßer Bestände.

Clustering - Wozu?

Stel­len Sie sich vor, je­mand hät­te alle Do­ku­men­te aus den Ak­ten­ord­nern im Kel­ler in die Luft ge­wor­fen und wild auf dem Fuß­bo­den ver­teilt. Vor Ih­nen liegt jetzt ein rie­si­ger Berg aus Zet­teln. Be­vor Sie die Do­ku­men­te wie­der ein­sor­tie­ren oder wei­ter­ver­ar­bei­ten kön­nen, ist es sinn­voll sie erst ein­mal zu ord­nen. Da­bei gilt es zu be­ach­ten, wel­che Sei­ten zu­sam­men­ge­hö­ren und was das für Do­ku­men­te sind, um ähn­li­che Do­ku­men­te auf ein­zel­ne Sta­pel sor­tie­ren zu können.

Die Do­ku­men­te hän­disch zu sor­tie­ren, wür­de sie ei­ni­ge Stun­den, wenn nicht so­gar Tage kos­ten. Ha­ben Sie da Lust zu? Wir wäre es, wenn eine Ma­schi­ne Ih­nen die Ar­beit ab­nimmt und Ihre Do­ku­men­te vorsortiert?

Wel­chen Nut­zen ha­ben Sie vom Clus­te­ring Ih­rer Dokumente?

Spa­ren

Sie Auf­wand beim Sor­tie­ren und Scannen

Schät­zen

Sie Ih­ren Auf­wand für die Da­ten-Er­fas­sung ein

Er­hal­ten

Sie eine kla­re Struk­tu­rie­rung nach Dokumenten-Typen

Stei­gern

Sie die Er­ken­nungs-Leis­tung für die Daten-Erfassung

Wie groß ist der Auf­wand fürs Clustering?

So­bald Ihre Do­ku­men­te di­gi­tal vor­lie­gen, kann die in­tel­li­gen­te Do­ku­men­ten-Ver­ar­bei­tung star­ten und die IPD Platt­form be­ginnt voll au­to­ma­ti­siert mit der Vorsortierung/dem Clus­tern. Es han­delt sich um ein KI-Ver­fah­ren, für das noch nicht ein­mal ein KI-Trai­ning not­wen­dig ist.

Im An­schluss schaut sich ein Ex­per­te das Er­geb­nis an und prüft die Clus­ter. Der Auf­wand hält sich dem­nach in über­schau­ba­ren Gren­zen und es kann je­der­zeit kurz­fris­tig mit dem Clus­te­ring be­gon­nen wer­den. Sie müss­ten ein­fach nur die Do­ku­men­te un­sor­tiert ein­scan­nen las­sen und schon kann es los gehen.

An­hand wel­cher Merk­ma­le wird unterschieden?

Die KI bil­det Sta­pel von ähn­li­chen Do­ku­men­ten auf Sei­ten­ebe­ne oder auf Do­ku­men­ten­ebe­ne. Un­ter­schie­den wer­den die Do­ku­men­te an­hand von be­stimm­ten Kri­te­ri­en. Die­se kön­nen ent­we­der tex­tu­ell oder vi­su­ell sein. Man spricht hier vom Tex­tu­el­len Do­ku­men­ten Clus­te­ring oder Vi­su­el­len Do­ku­men­ten Clustering.

Tex­tu­el­les Do­ku­men­ten Clustering

Beim tex­tu­el­len Clus­te­ring schaut die KI auf die in den Do­ku­men­ten ent­hal­te­nen Wor­te und bil­det tex­tu­el­le Dokumentencluster.

Ein klei­ner Tech-Exkurs

Wie funk­tio­niert Tex­tu­el­les Do­ku­men­ten Clustering?

Beim so­ge­nann­ten Bag-of-Words-Mo­del (Beu­tel vol­ler Wör­ter) lan­den alle Wör­ter aus al­len Do­ku­men­ten auf ei­nem Wort­in­dex. Die­ser wird dann um un­cha­rak­te­ris­ti­sche Wör­ter (stop words wie bei­spiels­wei­se: und, oder, aber), Wor­te mit zwei Buch­sta­ben und ggf. ei­ni­ge sel­ten vor­kom­men­de Wör­ter (die nicht cha­rak­te­ris­tisch sind) bereinigt.

Da­ne­ben gibt es im Wort­in­dex spe­zi­fi­sche Wor­te, wie z.B. Adress­in­for­ma­tio­nen, die für das Clus­te­ring ent­schei­dend sind. Je­des Do­ku­ment ent­hält ein cha­rak­te­ris­ti­sches Mus­ter aus dem Wort­in­dex – ein Wort­pro­fil. Das Wort­pro­fil zeich­net sich da­durch aus, dass be­stimmt Wort­mus­ter in ei­ni­gen Do­ku­men­ten vor­kom­men und in an­de­ren nicht. Je nä­her der In­halt ei­nes Do­ku­men­tes an das Wort­pro­fil kommt, des­to wahr­schein­li­cher ist es, dass das Do­ku­ment in die­ses Clus­ter ge­hört. Die an Rech­nun­gen häu­fig an­hän­gen­den AGB sind ein gu­tes und ein­fa­ches Bei­spiel für sehr cha­rak­te­ris­ti­sche Wort­zu­sam­men­stel­lun­gen. Hier fin­den sich ein­deu­ti­ge Wort­mus­ter, um die AGB si­cher ei­nem be­stimm­ten Clus­ter zuzuordnen.

Vi­su­el­les Clustering

Beim vi­su­el­len Clus­te­ring ach­tet die KI nur auf das Er­schei­nungs­bild, den Auf­bau des Lay­outs oder ei­nem vor­han­de­nen Logo. In­halt­lich kön­nen die Do­ku­men­te von­ein­an­der ab­wei­chen. Es wird le­dig­lich an­hand von vi­su­el­len Merk­ma­len sortiert.

Wie geht es nach dem Clus­tern weiter?

Clustering Ausgangslage

Aus­gangs­la­ge

Un­sor­tier­te Do­ku­men­te bil­den die Ausgangslage.

Clustering

Clus­tern

Beim Clus­tern wer­den die Do­ku­men­te vorsortiert.

Klassifizierung

Klas­si­fi­zie­ren

Es wer­den die Klas­sen im Sys­tem definiert.

Extrahieren von Informationen

Ex­tra­hie­ren

In­fos wer­den mit ho­her Er­ken­nungs­leis­tung extrahiert.

Im nächs­ten Ver­ar­bei­tungs­schritt der in­tel­li­gen­ten Do­ku­men­ten-Ver­ar­bei­tung wer­den aus den vor­han­de­nen Clus­tern, die Do­ku­men­ten­klas­sen ab­ge­lei­tet. Durch die Vor­grup­pie­rung in Clus­ter ist eine ge­naue Klas­si­fi­zie­rung mög­lich. Die Klas­sen wer­den im wei­te­ren Ver­lauf auch für die In­halts­ex­trak­ti­on ge­nutzt. Denn die KI kann In­for­ma­tio­nen ver­läss­li­cher ex­tra­hie­ren, wenn sie sich in ähn­li­chen Do­ku­men­ten befinden.

Use Ca­ses

  • Ak­ten­di­gi­ta­li­sie­run­gen für chro­no­lo­gi­sche Verarbeitungen
  • Ver­ar­bei­tung von: 
    • Post­ein­gän­gen
    • Auf­trä­gen
    • lo­gis­ti­schen Belege
    • Scha­dens­mel­dun­gen
    • ju­ris­ti­scher Be­le­ge zur Gel­tend­ma­chung oder Ab­wehr von Schadensersatzansprüchen
    • Personal‑, Kredit‑, Kanzlei‑, Schaden‑, Bau- oder Patientenakten

    Fin­den Sie her­aus, was in Ih­ren Do­ku­men­ten steckt!

    Der in­ser­ve Be­ra­tungs­pro­zess ist dar­auf aus­ge­legt, den pas­sen­den Ein­stieg und die pas­sen­de Au­to­ma­ti­sie­rungs­stra­te­gie für Ihr Pro­jekt zu fin­den. Ver­ein­ba­ren Sie noch heu­te ein per­sön­li­ches Ge­spräch für eine Kosten-Nutzen-Analyse!

    Ge­mein­sam fin­den wir her­aus, ob Ihr Pro­jekt ge­eig­net ist, um mit der IDP Platt­form und un­se­ren Ser­vices das für Sie bes­te Er­geb­nis herauszuholen.

    Di­rekt Ter­min vereinbaren!

    Mit dem On­line-Tool Calend­ly kön­nen Sie di­rekt on­line Ih­ren Wunsch­ter­min wäh­len. Bu­chen Sie noch heu­te Ihre 15-mi­nü­ti­ge Be­spre­chung bei Diet­mar Nei­dig und er­hal­ten Sie eine Ka­len­der-Ein­la­dung mit Zu­gangs­link zu Ih­rer per­sön­li­chen Teams-Besprechung.

    Dietmar Neidig

    Diet­mar Neidig

    CSO

    mail dneidig@inserve.de
    fon +49 511 936 857 67