Auch wenn Optical Character Recognition (OCR) in den letzten Jahren große Fortschritte gemacht hat, ist sie immer noch nicht perfekt und wird es auch nie sein. Insbesondere erreicht die Genauigkeit der meisten OCR-Lösungen nicht 100 %.
Damit die OCR-Lösung genaue Ergebnisse liefert, ist die Qualität des Ausgangsbildes eine der wichtigsten Variablen. Das Problem ist, dass die Qualität des Eingangsbildes, das an die OCR-Engine gesendet wird, oft nicht optimal genug ist, damit die OCR-Genauigkeit hoch ist. Dies kann auf schlechte Aufnahmepraktiken oder -bedingungen zurückzuführen sein, z. B. eine wackelige Kamera oder schlechte Beleuchtung.
In diesem Blog möchten wir Ihnen helfen, häufige Fehler bei der Datenerfassung zu vermeiden. Zunächst geben wir einen kurzen Überblick über die Funktionsweise von OCR, erklären, wie OCR-Genauigkeit definiert ist, und zeigen Beispiele für fehlerhafte Bilderfassung. Dann klären wir, wie die OCR-Genauigkeit verbessert werden kann.
Fangen wir gleich damit an.
Kurze Zusammenfassung: Wie funktioniert OCR?
In den letzten Jahren setzen immer mehr Unternehmen OCR-gestützte Software ein, um Arbeitsabläufe und Prozesse zu automatisieren. Da OCR in der Lage ist, Text zu erkennen, die Informationen zu extrahieren und sie in maschinenlesbare Daten umzuwandeln, ist eine manuelle Datenextraktion und -eingabe nicht mehr erforderlich.
Aber wie funktioniert das? OCR ist in der Lage, ein Bild in Text umzuwandeln, indem es jede einzelne Form eines Zeichens betrachtet und sie in den am besten passenden Buchstaben umwandelt.
In einem nächsten Schritt werden die Informationen extrahiert und in der Datenbank eines Unternehmens gespeichert. Dann können die Daten für die folgenden Geschäftsprozesse verwendet werden.
Die Umwandlung von Bildern in Text ermöglicht es Unternehmen im Allgemeinen, schneller auf Informationen zuzugreifen und diese zu finden, da sie durchsuchbar gemacht werden.
Leider besteht eine der größten Herausforderungen für eine OCR-Engine darin, Informationen auszulesen und Daten genau zu extrahieren. Damit die OCR-Engine uns genaue Daten liefert, können wir ihr ein wenig helfen.
Aber was ist mit genauen Daten gemeint? Damit wir darunter alle das Gleiche verstehen, werden wir im Folgenden kurz die OCR-Genauigkeit definieren.
Definition der OCR-Genauigkeit
Es gibt zwei Möglichkeiten zu definieren, was eine zuverlässige OCR ist:
- Genauigkeit auf Zeichenebene
- Genauigkeit auf Wortebene
Genauigkeit auf der Ebene eines Zeichens
In den meisten Fällen wird die Genauigkeit einer OCR-Engine durch die Zeichenebene definiert. Wie genau OCR ist, wird daran gemessen, wie oft ein Zeichen richtig und wie oft ein Zeichen falsch erkannt wird.
Theoretisch ist es recht einfach, die OCR-Genauigkeit zu messen. Sie vergleichen einfach die Ausgabe des OCR-Laufs mit dem Originaltext.
Dann können Sie entweder zählen, wie viele Zeichen OCR richtig erkannt hat (Genauigkeit auf Zeichenebene) oder wie viele Wörter OCR richtig erkannt hat (Genauigkeit auf Wortebene). Das macht doch Sinn, oder?
Genauigkeit auf Wortebene
Um die Genauigkeit auf Wortebene zu verbessern, nutzen OCR-Engines zusätzliches Wissen wie ein Wörterbuch oder eine Bibliothek von Wörtern. Auf diese Weise kann ein Wort, bei dem sich die OCR-Engine unsicher ist, auf ein Wort mit der größten Ähnlichkeit „festlegen“. Das bedeutet jedoch nicht, dass OCR das Wort richtig erkannt hat.
Deshalb ist es so wichtig, die OCR-Engine mit der höchstmöglichen Bildqualität zu versorgen. Fragen Sie sich, ob Ihre Bildqualität hoch genug ist? Werfen wir einen Blick auf einige Beispiele, die verschiedene Aufnahmebedingungen veranschaulichen.
Beispiele für geringe OCR-Genauigkeit
Wie versprochen, möchten wir Ihnen helfen, häufige Fehler bei der Datenerfassung zu vermeiden. Aus diesem Grund haben wir die folgenden Beispiele hinzugefügt:
Beispiel 1
In einer schnelllebigen Umgebung kann es verlockend sein, das Foto des Etiketts so schnell wie möglich zu machen (z. B. während man die Treppe hinaufgeht). Leider kann dies schnell zu Bildern von schlechter Qualität führen, die es der OCR erschweren, Daten genau zu extrahieren.
Alternativ sollte die Verpackung auf eine flache Oberfläche gelegt werden, um ein qualitatives Bild zu machen, das der OCR-Engine zu einer guten Leistung verhilft.
Beispiel 2
Wir alle kennen das: Einmal in eine Tasche geworfen, ist ein Kassenzettel in seltsamen Formen gefaltet. Wenn Sie dann ein Foto davon machen wollen, ist es sehr wahrscheinlich, dass OCR die Informationen nicht richtig auslesen kann.
Stattdessen ist es ratsam, den Beleg so gut wie möglich zu begradigen, ihn auf einen Tisch zu legen und dann das Bild zu erfassen. Die OCR-Ausgabe wird dann viel genauer sein.
Mit diesen Beispielen im Hinterkopf wollen wir vier verschiedene Möglichkeiten zur Verbesserung der OCR-Genauigkeit diskutieren.
Möglichkeiten zur Verbesserung der OCR-Genauigkeit
Nehmen wir ein Logistikunternehmen als Beispiel. Die Mitarbeiter arbeiten oft in einem sehr schnelllebigen Umfeld, in dem die Aufnahme hochwertiger Bilder eine Herausforderung darstellt.
Mitarbeiter sind nicht in der Lage, sich auf die Qualität des Bildes zu konzentrieren, da sie schnell und unterwegs ein Bild aufnehmen müssen.
Dies stellt OCR vor die Herausforderung, den Text zu erkennen und die erforderlichen Informationen auszulesen. Eine ungenaue Datenausgabe ist die Folge, was die Verwendung der Informationen in weiteren Geschäftsprozessen extrem erschwert.
Im schlimmsten Fall können Unternehmen durch ungenaue Daten viel Geld verlieren.
Es gibt jedoch verschiedene Möglichkeiten, die OCR-Genauigkeit ohne großen zusätzlichen Aufwand für die Mitarbeiter zu verbessern. Diese Möglichkeiten sind:
- Verbesserte Qualität des Ausgangsbildes
- Bilder, die in einer “kontrollierten” Umgebung aufgenommen wurden
- Benutzer-Feedback in Echtzeit
- OCR-Lösung, die “Bounding Boxes” zur Kennzeichnung des Datenerfassungsbereichs zeichnet
Schauen wir uns jeden Punkt einzeln an.
1. Verbesserte Qualität des Ausgangsbildes
Dies ist ziemlich offensichtlich. Wenn die Qualität des Ausgangsbildes verbessert wird, erhöht sich die Genauigkeit der OCR erheblich. Sie fragen sich vielleicht, woher Sie wissen, ob die Bildqualität hoch genug ist.
Dies ist recht einfach zu testen. Wenn ein menschliches Auge in der Lage ist, das Ausgangsbild deutlich zu sehen, dann ist es möglich, gute OCR-Ergebnisse zu erzielen. Ein guter Indikator ist die Zeichenhöhe. Es ist ratsam, die Zeichenhöhe nicht unter 20 Pixel fallen zu lassen, da es sonst schwierig wird, Wörter und Zeichen zu erkennen.
Denken Sie daran: Je besser die Qualität des Originalbildes ist, desto einfacher ist es, Zeichen vom Hintergrund zu unterscheiden, und desto höher ist die Genauigkeit.
2. Bilder, die in einer “kontrollierten” Umgebung aufgenommen wurden
Eine weitere Möglichkeit zur Verbesserung der OCR-Genauigkeit besteht darin, das Bild in einer „kontrollierten“ Umgebung aufzunehmen. Das bedeutet, dass z. B. zu dunkle Bedingungen (z. B. ein Bild, das in einem dunklen Raum oder nachts im Freien aufgenommen wurde) und unebene Oberflächen vermieden werden sollten.
Auch eine sehr unübersichtliche Umgebung und eine ähnliche Farbe des Hintergrunds und des Bildes können zu Problemen und einer niedrigen Genauigkeitsrate führen.
Stattdessen ist es sinnvoll, ein Dokument auf einer ebenen Fläche zu fotografieren, z. B. einen Lieferschein auf dem Boden eines Lagerhauses.
3. Nutzer-Feedback in Echtzeit
Um sicherzustellen, dass Mitarbeiter ein qualitativ hochwertiges Bild aufnehmen können und somit eine hohe OCR-Genauigkeit erreichen, ist es ratsam, eine OCR-gesteuerte Lösung zu verwenden, die auf Echtzeit-Benutzerfeedback zurückgreift.
Mit dem Echtzeit-Feedback werden die Benutzer sofort benachrichtigt, wenn die Aufnahmebedingungen nicht gut genug sind, und haben die Möglichkeit, das Bild nochmal aufzunehmen. Darüber hinaus führt das Echtzeit-Feedback den Nutzer durch den Aufnahmeprozess und sorgt dafür, dass Fehler auf ein Minimum reduziert werden.
Dieses Benutzerfeedback kann wie folgt aussehen: „Näher an das Dokument herangehen“ „Zu viel Bewegung“ oder „Bedingungen zu dunkel“.
4. OCR-Lösung, die “Bounding Boxes” zur Kennzeichnung des Datenerfassungsbereichs zeichnet
Einige OCR-Lösungen, wie z. B. das Klippa Dokument Scanning SDK, zeichnen „Bounding Boxes“, an die das Dokument angepasst werden sollte. Dadurch wird der richtige Aufnahmewinkel und -abstand sichergestellt.
Sobald das Bild aufgenommen ist, sucht die OCR-Engine automatisch nach Fehlern und korrigiert Probleme. Das kann zum Beispiel bedeuten, dass ein Bild schräg gestellt wird (das Bild wird begradigt und die Winkel werden korrigiert). Dies kann auch bedeuten, dass das Rauschen eines Bildes reduziert wird, indem der Intensitätswert der Pixel an die Durchschnittswerte der umliegenden Pixel angepasst wird, um die Bildqualität zu verbessern.
Im Allgemeinen kann die Genauigkeit der Datenextraktion noch weiter verbessert werden, wenn der Text des Bildes mithilfe von Natural Language Processing (NLP) extrahiert wird.
Dies wird als Nachbearbeitung der Ausgabe bezeichnet, bei der die extrahierten Daten mit einer Bibliothek von Zeichen verglichen werden. Es werden Grammatikprüfungen durchgeführt und kontextbezogene Überlegungen ausgeführt, um das bestmögliche Ergebnis zu erzielen.
Würden Sie gerne mit einer OCR-Lösung arbeiten, die Ihnen all das bietet? Nun, mit Klippa ist das möglich. Lassen Sie sich von unserer Lösung überzeugen, indem wir Ihnen zeigen, was wir bieten.
Klippa als zuverlässige und genaue OCR-Lösung
Die Lösung von Klippa bietet nicht nur Echtzeit-Benutzerfeedback und hilfreiche „Bounding Boxes“, die die Bildgröße anzeigen. Mit unserem Kamera-SDK können Mitarbeiter auch unterwegs Bilder scannen und fotografieren. Generell hat die Verwendung eines SDKs in diesem Fall einen großen Vorteil, da es sich leicht in Ihre eigene Anwendung integrieren lässt.
Unser Document Scanning SDK bietet sieben Funktionen, die das Erreichen einer hohen OCR-Genauigkeit erheblich erleichtern. Diese Funktionalitäten sind:
- Echtzeit-Benutzer-Feedback → Unser SDK gibt Echtzeit-Feedback, um den Benutzer bei der Aufnahme eines Bildes zu unterstützen, z. B. “Gehen Sie näher an das Dokument heran”, “Halten Sie die Kamera ruhig” und “Bedingungen zu dunkel”.
- Automatische Aufnahme → Die automatische Aufnahme macht das Scannen von Dokumenten viel einfacher. Der Benutzer muss nicht auf die Taste drücken, um ein Bild aufzunehmen. Sie können das Dokument einfach vor die Kamera halten, und das Klippa SDK wird das Dokument automatisch erkennen und das Bild für Sie aufnehmen.
- Zuschneiden → Unsere Scanning-SDK erkennt die Ränder des Dokuments und schneidet es automatisch zu. Dank dieser Funktion wird der Prozess, ein sauberes und hochwertiges Bild zu erhalten, viel bequemer. Darüber hinaus ist es auch möglich, das Bild manuell zuzuschneiden, um es nach Ihren Wünschen zu gestalten.
- Beleuchtungsanpassung → Befindet man sich in einer dunkleren Umgebung und hat keine geeignete Lichtquelle in der Nähe, kann der Benutzer den Blitz über die Blitzsteuerung einschalten. So erhalten Sie das klarste Bild, das möglich ist.
- Bildverbesserung → Die Qualität des Dokuments wird durch die Bildverarbeitungsfunktionen unseres Kamera-SDKs verbessert, um die bestmögliche Bildqualität zu gewährleisten.
- Scannen von Einzel- und Mehrfachdokumenten → Es ist möglich, mehrere Dokumente schnell zu scannen und sie zu gruppieren, um einen schnellen und effizienten Prozess zu gewährleisten.
- Anonymisierung → Um der DSGVO zu entsprechen, dürfen einige Informationen nicht in Datenbanken gespeichert werden. Daher bieten wir die Möglichkeit, Daten automatisch zu maskieren.
Im Video können Sie sehen, wie diese sieben Funktionen in Aktion aussehen.
Um den Erfolg Ihres Unternehmens zu maximieren, sind wir darüber hinaus in der Lage, maßgeschneiderte Lösungen zu entwickeln.
Da wir Machine Learning und KI nutzen, sind wir nicht auf Vorlagen angewiesen. Dadurch kann OCR eine Ausgabe mit höherer Genauigkeit erzeugen. Das bedeutet auch, dass wir unsere OCR so trainieren können, dass sie jedes von Ihnen benötigte Dokument ausliest.
Außerdem können wir durch den Einsatz von Machine Learning und Künstlicher Intelligenz (KI) unsere Lösung ständig trainieren, sodass wir von Anfang an auf Ihre Bedürfnisse eingehen können.
Wie Sie sehen, ist es mit den zahlreichen verpackten Bildoptimierungsfunktionen von Klippa ein Leichtes, eine zuverlässige und genaue OCR-Ausgabe zu erhalten. Möchten auch Sie sicherstellen, dass Ihre Mitarbeiter mit einer zuverlässigen und genauen OCR-Lösung arbeiten können?
Lassen Sie uns Ihnen zeigen, was wir für Sie tun können. Buchen Sie einfach unten eine kostenlose Demo oder kontaktieren Sie einen unserer Experten.