Die Tage von Papier, PDF und OCR sind gezählt – jedenfalls bei der Rechnungsverarbeitung. Denn die E-Rechnung ist auf dem Vormarsch für alle. Ganz abschreiben sollte man jedoch insbesondere die automatische Texterkennung (Optical Character Recognition = OCR) noch nicht, denn sie wird noch länger als Brückentechnologie benötigt. Wer die folgenden Grundregeln beachtet, kann die Qualität der OCR deutlich erhöhen und damit seine Geschäftsprozesse einfach optimieren.
Ihren Scanner benötigen Unternehmen heute immer seltener, denn elektronische Formate haben Papierdokumente schon zu weiten Teilen abgelöst. Einer Umfrage der xSuite zufolge erhalten 83 Prozent ihrer Kunden inzwischen mindestens die Hälfte ihrer Rechnungen als PDF. Bereits 57 Prozent der Kunden nehmen zudem Rechnungen im XML-Format an, wie beispielsweise die XRechnung, und verarbeiten diese weiter. Eine XML-Rechnung ist ein maschinenlesbares Dokument, d.h. sie enthält einen Datensatz mit Informationen, die sich automatisiert in ein ERP-System zur weiteren Verarbeitung übertragen lassen. Damit entfällt, im Vergleich zu Papier- und PDF-basierten Eingangsrechnungen, der fehleranfälligste Schritt bei der digitalen Verarbeitung, nämlich die OCR-basierte Beleglesung.
Dieses Szenario ist allerdings noch keineswegs die Regel. Einfache PDFs oder Papierbelege (nach dem Scannen) müssen noch per Optical Character Recognition ausgelesen werden. Auch wenn die Zeichen deutlich auf E-Rechnung stehen und somit in absehbarer Zeit Papier, PDF und OCR obsolet sind, geschieht der vollständige Umstieg auf E-Invoicing nicht von heute auf morgen. Und es bleibt die Frage, wann er (und ob überhaupt) komplett auf Null sinken wird.
Für diese Übergangsphase lohnt es sich also durchaus, einen genaueren Blick auf die Beleglesung mittels OCR zu werfen – denn der Prozess der Eingangsrechnungsverarbeitung kann hier weitreichend optimiert werden. In der Regel besteht noch sehr viel Potenzial, um den Automatisierungsgrad im Arbeitsprozess deutlich zu steigern.
Brücke zwischen Dokument und ERP
OCR dient dazu, den Medienbruch zwischen Papier bzw. PDF und ERP-System zu überbrücken. Sie erkennt in PDF- oder Bilddateien Formen, Muster (z.B. eine Tabellenstruktur), Buchstaben oder Zahlen, interpretiert sie und versucht, daraus Worte oder Werte zu bilden. Was einfach erklärt ist, hält in der Praxis zahlreiche Tücken bereit. Denn eine OCR-Engine weiß nicht automatisch, dass es „Bestellnummer“ und nicht „8estellnummer“ heißt. Eine ausgereifte Technologie ist erforderlich, damit auch sehr ähnlich aussehende Werte wie „8“ und „B“ richtig unterschieden werden. Sonst wird das Wort als Ganzes schlichtweg nicht erkannt und lässt sich damit auch nicht richtig interpretieren. Im dritten Schritt muss die OCR einen Zusammenhang zwischen einzelnen Informationen herstellen, also zum Beispiel das Element „Rechnungsnummer“ mit der zugehörigen Rechnungsnummer logisch verknüpfen.
Natürlich hängt es nicht nur von der Fähigkeit der OCR ab, wie viel richtig erkannt wird, sondern auch von der Qualität des Inputs. Zum Glück gibt es einige – häufig ganz einfache – Maßnahmen, mit der man die Erkennungsrate und somit die Ergebnisse der OCR deutlich verbessern kann.
Typische Stolpersteine bei der Beleglesung
Man kann es nicht oft genug betonen: Alles, was dem menschlichen Auge erschwert, ein Dokument zu lesen, ist auch für die OCR hinderlich. Wird also noch gescannt, dann sollte die Auflösung möglichst hoch sein; Knicke, Flecken und dergleichen sind ohnehin tabu. Umso einfacher hat es anschließend die OCR. Verschnörkelte Schriftarten und zu geringe Kontraste mögen zwar dem Corporate Design des Absenders eines Schriftstücks entsprechen, der OCR des Empfängers erschweren sie aber die Arbeit.
Eine große Hürde ist stets der Abgleich mit den Stammdaten. Selbst wenn 100 Prozent korrekt erkannt wurden: Ist ein Kreditor mehrfach im ERP-System angelegt, kann die OCR nicht wissen, welchem Datensatz sie die Rechnung zuordnen soll. Stammdatenbereinigung und Dublettenprüfung sind daher unumgänglich für eine letztlich funktionierende OCR.
Was können Unternehmen vor dem Hintergrund dieser Vorbedingungen tun, um ihre OCR-Ergebnisse zu verbessern?
Tipp 1: Die Lieferanten explizit nach digitalen Rechnungen fragen
Für PDF-Dokumente ist die Erkennungsrate in der Regel deutlich höher als für eingescannte Papierbelege. Daher sollten möglichst viele Lieferanten in einem ersten Schritt von Papier auf PDF umstellen. Gerade wenn sie noch keine maschinenlesbaren Rechnungen im XML-Format liefern müssen, sind die meisten Lieferanten dazu heute bereit. Der Empfänger spart sich damit das Einscannen und damit bereits die erste Fehlerquelle.
Tipp 2: Auf die Belegqualität achten
Eingehende Papierbelege sollte man pfleglich behandeln und möglichst frühzeitig einscannen. Eingangsstempel, handschriftliche Anmerkungen oder Haftnotizen haben darauf nichts zu suchen. Muss ein Stempel unbedingt sein, diesen am besten immer an derselben Stelle platzieren. Auch die typischen Gebrauchsspuren, die entstehen, wenn ein Papierbeleg seinen Weg über die Schreibtische nimmt, verschlechtern die Scanergebnisse. Deshalb sollte man einen zentralen Posteingang einrichten, an dem Belege direkt gescannt werden. An diesen sollten Lieferanten ihre Rechnungen schicken, nicht zu Händen einzelner Beschäftigter.
Tipp 3: Spielregeln mit den Lieferanten vereinbaren
Häufig werden Kopfdaten oder Zahlungsinformationen zurückhaltender dargestellt, z.B. durch kleinere Schriftgröße oder weniger kontrastreiche Schriftfarbe. Sie sind aber die wichtigsten Informationen für die Eingangsrechnungsverarbeitung. Der Absender sollte sie daher ebenfalls groß und gut lesbar auf die Rechnung aufbringen. Schattierungen, Hintergrundfarben, Wasserzeichen und dergleichen lassen ein Dokument hochwertig aussehen, erschweren aber seine Lesbarkeit. Das Layout von Rechnungen hat sowohl bei PDF als auch bei Papier großen Einfluss auf die Beleglesungsergebnisse!
Tipp 4: OCR braucht einen definierten Rahmen
Zunächst ist darauf zu achten, dass wirklich nur Rechnungen und keine anderen Dokumente in den OCR-Prozess eingehen. Vorsortieren von Belegen (etwa nach Buchungskreisen) unterstützt, da z.B. die Angabe der falschen Firmierung ein typischer Fehler auf Rechnungen ist und eine nachträgliche Stornierung des Belegs im Workflow immer Aufwand verursacht. Auch empfiehlt es sich, die einzelnen Rechnungen durch Aufbringen von Nuller-Barcodes voneinander zu trennen. Sonst weiß die OCR nicht mit 100%iger Sicherheit, wo eine Rechnung endet und die nächste anfängt, bzw. kann sie nur schwer selbstständig Anhänge (wie AGB, Lieferscheine usw.) herausfiltern.
Tipp 5: Stammdatenbereinigung im Zielsystem
Bei einem bereits hohen Anteil digitaler Rechnungen ist die Qualität der Stammdaten der zentrale Schlüssel, um die Erkennungsquote zu verbessern. Insbesondere Dubletten verhindern, dass Informationen korrekt zugeordnet werden können. Saubere Stammdaten sind daher essenziell. Außerdem sollte man die Kreditorenerkennung nicht nur an einem Wert der Stammdaten festmachen, sondern mehrere Kriterien nutzen: zum Beispiel zusätzlich zur Bankverbindung noch Firmenname, VAT-ID oder Telefonnummer.
Tipp 6: Möglichkeiten der Rechnungsverarbeitungslösung nutzen
Neben den genannten Maßnahmen unterstützen Features und Einstellungsmöglichkeiten einer Lösung für die Rechnungseingangsbearbeitung, wie xSuite sie anbietet, bei der OCR-Verbesserung. Diese beinhaltet ein Lieferanten- oder Feldtraining basierend auf Machine Learning-Algorithmen und kann Fehlertoleranzen einräumen. Über das Tool xSuite Capture Analyzer lässt sich zudem nachvollziehen und auswerten, welche Felder bei der Validierung eines Belegs nachträglich geändert wurden. So stellt man schnell fest, wenn es wiederkehrende Muster gibt – z.B. bei einem bestimmten Kreditor eine Information nie gefunden wird – und kann entsprechend gegensteuern.
Fazit:
Auch wenn mittelfristig alle Zeichen auf E-Rechnung stehen, lohnt es trotzdem, sich noch heute den OCR-Prozess für Rechnungen vorzunehmen. Bei einem hohen Volumen an täglich eingehenden Belegen führen oftmals bereits kleine Verbesserungen zu signifikanter Arbeitsentlastung. Dienstleister wie die xSuite bieten eine solche Überprüfung der OCR als Service an. Resultat sind optimale Ergebnisse der Beleglese-Software und aufwändige „Nacharbeiten“ entfallen somit.