
Claim Audit liest Belege mit 99,3 % Genauigkeit – selbst bei Fotos und Handschrift.
Claim Audit ist unsere Belegprüfung, die Belege nicht nur „liest“, sondern wirklich versteht. Der Schlüssel zu unserer außergewöhnlich hohen Auslesequote liegt in einem zweistufigen, robusten Verfahren: Zuerst normalisieren und schützen wir die Dokumente konsequent, dann kombinieren wir ein hochperformantes OCR-Verfahren mit eigens antrainierten Large-Language-Modellen. So holen wir aus schwierigen PDFs, Fotos und Scans zuverlässig strukturierte Daten heraus – selbst bei handschriftlichen oder schlecht belichteten Belegen.
Realität im Schadenalltag sind nicht perfekte, vektorbasierte PDFs. Wir sehen kaputte oder teildefekte PDF-Objekte, eingebettete Schriften mit fehlerhaften Encodings, stark komprimierte Handyfotos, Schatten, Knicke, Schieflagen, Wasserzeichen, Stempel und Mischformen aus Text- und Bildlagen. Solche Dokumente verwirren Standard-Engines: Die Lesereihenfolge bricht, Zeichen werden vertauscht, Spalten verrutschen – und plötzlich fehlt die entscheidende Rechnungsnummer oder eine Position wird doppelt gezählt. Unsere Antwort darauf: Wir lesen nicht das PDF-„Objekt“, sondern das, was ein Mensch sehen würde – ein Bild der Seite.
Bevor wir ein Dokument technisch anfassen, entfernen wir personenbezogene Informationen. Namen, Adressen, IBAN/BIC, Kfz-Kennzeichen, Telefonnummern und E‑Mail-Adressen werden mittels domänenspezifischer Erkennung (u. a. Regex-Validierung, NER und Prüfziffern-Checks) maskiert oder pseudonymisiert. So bleibt die inhaltliche Struktur erhalten, während personenbezogene Daten geschützt sind. Dieser Schritt ist zentral für Datenschutz und Bias-Reduktion – und er ermöglicht uns, Modelle kontinuierlich zu verbessern, ohne unnötige PII zu verarbeiten. Selbstverständlich erfolgt die Verarbeitung DSGVO-konform, verschlüsselt und – sofern vertraglich vereinbart – innerhalb der EU.
Im nächsten Schritt rasterisieren wir jede Seite mit hohem DPI-Wert und erzeugen ein konsistentes Bild. Auf dieser Ebene greifen stabile Bildverarbeitungsroutinen: Orientation Detection, Deskew (Schieflagenkorrektur), Dewarp (Entzerrung), Rand- und Lochentfernung, Entsättigung von Schatten, Rauschfilterung und adaptive Binarisierung/Thresholding. Bei Handyfotos kommen zusätzlich Perspektivkorrektur, Dokumentbegrenzung (Corner/Contour Detection) und Kontrastnormalisierung zum Einsatz. Das Ergebnis ist ein „sauberes“ Bild, auf dem Text, Tabellen, Stempel und Linien klar voneinander trennbar sind – die ideale Grundlage für präzise Erkennung.
Wir setzen nicht auf eine einzige Engine, sondern auf ein OCR‑Ensemble mit Voting und Confidence-Strategien. Mehrere Erkenner – optimiert für gedruckten Text, Handschrift (HTR) und Mischformen – liefern Kandidaten mit Zeichen- und Wort-Confidence. Über Sequence Alignment, Levenshtein-Fuzzy-Matching und domänenspezifische Korrekturen (z. B. USt-IdNr.-Formate, IBAN-Prüfziffern, Datums- und Währungsnormierung) ermitteln wir den besten Konsens. Ein Layout-Analyser (Document Layout Understanding) erkennt Bereiche wie Kopfzeile, Adressblock, Rechnungsmetadaten, Tabellen mit Positionen, Summenblöcke und Fußnoten. So bleibt die Lesereihenfolge intakt, Spalten werden korrekt zugeordnet und Zeilenumbrüche sauber aufgelöst. Dieser Ensemble-Ansatz ist einer der Gründe, warum wir auf Feldebene eine gemessene Genauigkeit von 99,3 % erreichen – und zwar auf echten Belegen, nicht nur auf Labor-PDFs.
Viele Schadenbelege sind handschriftlich ergänzt oder komplett handschriftlich. Dafür nutzen wir spezialisierte HTR-Modelle (u. a. CRNN/BiLSTM mit CTC-Decoding), die auf deutschsprachigen Formaten trainiert wurden. In Kombination mit kontextsensitiven Korrekturen (z. B. typische Materialbezeichnungen, Maßeinheiten, Steuersätze, Positionskürzel) lässt sich auch unruhige Handschrift erstaunlich zuverlässig lesen. Was ein geübtes Auge erkennt, soll auch unsere Pipeline erkennen – genau das leisten wir.
Reine Texterkennung reicht für eine Belegprüfung nicht aus. Deshalb folgt nach der OCR die semantische Analyse mit eigens antrainierten Large-Language-Modellen. Diese Modelle sind auf typische Rechnungsinhalte, Gewerke und Schadenkontexte kalibriert. Sie erfassen nicht nur „was dort steht“, sondern auch „was gemeint sein kann“. So werden Positionszeilen in eine strukturierte, einheitliche Form überführt: Artikelbezeichnung, Kategorie (z. B. Material/Arbeitszeit/Pauschale), Menge, Einheit, Einzelpreis, Rabatt, Steuer, Gesamtbetrag und Zusatzangaben wie „Anfahrt“, „Notdienst“, „Gerüst“, „Trocknungsgerät Miete“ oder „Gefahrenzuschlag“. Bei unklaren Formulierungen bewertet das Modell semantische Möglichkeiten („Pauschale für Trocknung“ vs. „Trocknungsgerät, Miete je Tag“) und ordnet sie plausibel zu. Über eine definierte Schema-Mapping-Schicht (funktionales Parsing/„Function Calling“) geben wir das Ergebnis als saubere, validierte Strukturdaten zurück – perfekt für Prüfregeln, Kostenanalysen und automatisierte Entscheidungen.
Jedes extrahierte Feld erhält Confidence-Werte. Kontexte wie Währung, Steuerlogik, Summenkonsistenz (Nettosumme + Steuer = Brutto), Datumsplausibilität und Rechnungsnummern-Patterns werden automatisch geprüft. Bei Bedarf validieren wir IBAN/BIC, USt-IdNr., Postleitzahlen oder Artikelnummern. Für die Sachbearbeitung bleibt alles nachvollziehbar: Bounding Boxes und Quellpassagen können referenziert werden, damit klar ist, „woher eine Zahl kommt“. Diese Nachvollziehbarkeit ist ein wichtiger Teil unseres Audit-Trails.
Der Unterschied entsteht durch die Kombination aus robuster Bildnormalisierung, einem OCR‑Ensemble mit Konsensbildung und einer domänenspezifischen LLM-Schicht. PDFs und Fotos werden erst vergleichbar gemacht, dann redundant gelesen, anschließend semantisch verstanden und gegen Regeln validiert. Dadurch sinken typische Fehlerquellen – etwa falsch segmentierte Tabellen, verdrehte Seiten, kaputte Schriftencodings oder mehrdeutige Positionsbeschreibungen – drastisch. Ergebnis: deutlich höhere Trefferquoten, weniger Rückfragen und schneller abgeschlossene Prüfungen.
Unser System lernt mit jedem Korrekturhinweis. Ein aktives Feedback- und Retraining-Setup (Active Learning) priorisiert Grenzfälle mit niedriger Confidence, fügt sie einem kuratierten Goldstandard hinzu und erhöht so Schritt für Schritt die Genauigkeit. Neue Layouts, Branchenbegriffe oder Formate werden eingelernt, ohne die Stabilität bestehender Erkennungen zu gefährden. So bleibt die Performance im Feld hoch – auch wenn sich Belegarten und Vorlagen ändern.
Daten werden verschlüsselt übertragen und gespeichert, Zugriffe sind streng rollenbasiert, und Protokollierung sowie Pseudonymisierung sind fester Bestandteil des Prozesses. Unsere Entpersonalisierung greift vor sensiblen Verarbeitungsschritten, externe Modelle erhalten keine unmaskierten personenbezogenen Daten. Auf Wunsch verarbeiten wir ausschließlich in EU-Rechenzentren. Kurz: hohe Erkennungsleistung und strenger Datenschutz gehen bei uns Hand in Hand.
Claim Audit spart Zeit, reduziert Rückfragen und schafft Vertrauen. Sie erhalten saubere, strukturierte Daten selbst aus schwierigen Belegen – schnell, zuverlässig und prüfbar. Damit werden Kostenanalysen, Regelprüfungen und Freigaben einfacher und schneller. Für Massenschäden oder komplexe Einzelfälle gilt gleichermaßen: Je heterogener die Dokumente, desto stärker zeigt sich der Vorteil unseres Ansatzes.
Wir haben Belegprüfung von Grund auf für die Realität im Schadenmanagement gebaut: entpersonalisieren, zu Bildern normalisieren, mit einem OCR‑Ensemble auslesen und mit LLMs semantisch verstehen. Dieses Setup liefert 99,3 % Genauigkeit auf Feldebene, liest auch Handschrift und problematische Scans und macht aus unstrukturierten Belegen hochwertige, belastbare Daten – die Basis für schnelle, transparente und faire Regulierung.