Was steckt drin in Ihren Dokumenten?
Finden Sie heraus, welche Informationen sich in Ihren Dokumenten verbergen! Clustering ist der erste Schritt, um Ihren Dokumentenbestand zu verstehen. Dadurch finden Sie schnell, effizient und kostengünstig heraus, welche Belegtypen und Layouts in welcher Anzahl vorhanden sind, und ob sich eine Datenanalyse für den Datenbestand lohnt. Dabei ist es egal, ob es sich um Rechnungen, Lieferscheine, Personalakten oder sonstige Dokumente handelt, ob sie schon digitalisiert sind oder bisher nur in Papierform vorliegen. Machen Sie den ersten Schritt, um herauszufinden, wie Sie von Ihren Daten profitieren und sie gewinnbringend für Ihr Unternehmen einsetzen können.
Wozu brauchen Sie Clustering?
Gerade bei großen Dokumentenbeständen mit einer komplexen Struktur ist es sinnvoll, erst einmal die Dokumente vorzusortieren. So finden Sie heraus, ob Sie überhaupt die benötigten Informationen aus den Dokumenten herausfiltern können. Hierfür setzen wir Clustering ein. Clustering ist ein Hilfsinstrument, um automatisch nach Ähnlichkeiten in Dokumenten zu suchen und diese zu sortieren. Dabei wird automatisiert in den Dokumenten nach Mustern und Faktoren gesucht, um Ähnliche und Gleiche dann in Cluster zusammenzufassen. Das Ergebnis liefert Ihnen viele Mehrwerte und reduziert die Komplexität großer Bestände.

Stellen Sie sich vor, jemand hätte alle Dokumente aus den Aktenordnern im Keller in die Luft geworfen und wild auf dem Fußboden verteilt. Vor Ihnen liegt jetzt ein riesiger Berg aus Zetteln. Bevor Sie die Dokumente wieder einsortieren oder weiterverarbeiten können, ist es sinnvoll sie erst einmal zu ordnen. Dabei gilt es zu beachten, welche Seiten zusammengehören und was das für Dokumente sind, um ähnliche Dokumente auf einzelne Stapel sortieren zu können.
Die Dokumente händisch zu sortieren, würde sie einige Stunden, wenn nicht sogar Tage kosten. Haben Sie da Lust zu? Wir wäre es, wenn eine Maschine Ihnen die Arbeit abnimmt und Ihre Dokumente vorsortiert?
Welchen Nutzen haben Sie vom Clustering Ihrer Dokumente?
Sparen
Sie Aufwand beim Sortieren und Scannen
Schätzen
Sie Ihren Aufwand für die Daten-Erfassung ein
Erhalten
Sie eine klare Strukturierung nach Dokumenten-Typen
Steigern
Sie die Erkennungs-Leistung für die Daten-Erfassung
Wie groß ist der Aufwand fürs Clustering?
Sobald Ihre Dokumente digital vorliegen, kann die intelligente Dokumenten-Verarbeitung starten und die IPD Plattform beginnt voll automatisiert mit der Vorsortierung/dem Clustern. Es handelt sich um ein KI-Verfahren, für das noch nicht einmal ein KI-Training notwendig ist.
Im Anschluss schaut sich ein Experte das Ergebnis an und prüft die Cluster. Der Aufwand hält sich demnach in überschaubaren Grenzen und es kann jederzeit kurzfristig mit dem Clustering begonnen werden. Sie müssten einfach nur die Dokumente unsortiert einscannen lassen und schon kann es los gehen.
Anhand welcher Merkmale wird unterschieden?
Die KI bildet Stapel von ähnlichen Dokumenten auf Seitenebene oder auf Dokumentenebene. Unterschieden werden die Dokumente anhand von bestimmten Kriterien. Diese können entweder textuell oder visuell sein. Man spricht hier vom Textuellen Dokumenten Clustering oder Visuellen Dokumenten Clustering.
Textuelles Dokumenten Clustering
Beim textuellen Clustering schaut die KI auf die in den Dokumenten enthaltenen Worte und bildet textuelle Dokumentencluster.
Ein kleiner Tech-Exkurs
Wie funktioniert Textuelles Dokumenten Clustering?
Beim sogenannten Bag-of-Words-Model (Beutel voller Wörter) landen alle Wörter aus allen Dokumenten auf einem Wortindex. Dieser wird dann um uncharakteristische Wörter (stop words wie beispielsweise: und, oder, aber), Worte mit zwei Buchstaben und ggf. einige selten vorkommende Wörter (die nicht charakteristisch sind) bereinigt.
Daneben gibt es im Wortindex spezifische Worte, wie z.B. Adressinformationen, die für das Clustering entscheidend sind. Jedes Dokument enthält ein charakteristisches Muster aus dem Wortindex – ein Wortprofil. Das Wortprofil zeichnet sich dadurch aus, dass bestimmt Wortmuster in einigen Dokumenten vorkommen und in anderen nicht. Je näher der Inhalt eines Dokumentes an das Wortprofil kommt, desto wahrscheinlicher ist es, dass das Dokument in dieses Cluster gehört. Die an Rechnungen häufig anhängenden AGB sind ein gutes und einfaches Beispiel für sehr charakteristische Wortzusammenstellungen. Hier finden sich eindeutige Wortmuster, um die AGB sicher einem bestimmten Cluster zuzuordnen.
Visuelles Clustering
Beim visuellen Clustering achtet die KI nur auf das Erscheinungsbild, den Aufbau des Layouts oder einem vorhandenen Logo. Inhaltlich können die Dokumente voneinander abweichen. Es wird lediglich anhand von visuellen Merkmalen sortiert.
Wie geht es nach dem Clustern weiter?

Ausgangslage
Unsortierte Dokumente bilden die Ausgangslage.

Clustern
Beim Clustern werden die Dokumente vorsortiert.

Klassifizieren
Es werden die Klassen im System definiert.

Extrahieren
Infos werden mit hoher Erkennungsleistung extrahiert.
Im nächsten Verarbeitungsschritt der intelligenten Dokumenten-Verarbeitung werden aus den vorhandenen Clustern, die Dokumentenklassen abgeleitet. Durch die Vorgruppierung in Cluster ist eine genaue Klassifizierung möglich. Die Klassen werden im weiteren Verlauf auch für die Inhaltsextraktion genutzt. Denn die KI kann Informationen verlässlicher extrahieren, wenn sie sich in ähnlichen Dokumenten befinden.
Use Cases
- Aktendigitalisierungen für chronologische Verarbeitungen
- Verarbeitung von:
- Posteingängen
- Aufträgen
- logistischen Belege
- Schadensmeldungen
- juristischer Belege zur Geltendmachung oder Abwehr von Schadensersatzansprüchen
- Personal‑, Kredit‑, Kanzlei‑, Schaden‑, Bau- oder Patientenakten
Finden Sie heraus, was in Ihren Dokumenten steckt!
Der inserve Beratungsprozess ist darauf ausgelegt, den passenden Einstieg und die passende Automatisierungsstrategie für Ihr Projekt zu finden. Vereinbaren Sie noch heute ein persönliches Gespräch für eine Kosten-Nutzen-Analyse!
Gemeinsam finden wir heraus, ob Ihr Projekt geeignet ist, um mit der IDP Plattform und unseren Services das für Sie beste Ergebnis herauszuholen.
Direkt Termin vereinbaren!
Mit dem Online-Tool Calendly können Sie direkt online Ihren Wunschtermin wählen. Buchen Sie noch heute Ihre 15-minütige Besprechung bei Dietmar Neidig und erhalten Sie eine Kalender-Einladung mit Zugangslink zu Ihrer persönlichen Teams-Besprechung.
