Paperless-NGX OCR Sprachen | Funktionierende vs. nicht funktionierende Sprachen

Ein delikates Thema: Paperless-NGX OCR Sprachen. Funktionierende vs. nicht funktionierende Sprachen in der Paperless OCR Erkennung.

Viele Dokumente enthalten bereits den Sprachinhalt in der PDF-Datei, und wenn Paperless richtig eingestellt ist, bleibt dieser Inhalt auch erhalten.

Kommen wir nun zu den Dokumenten, die gescannt werden – hier tritt das Problem immer auf. Paperless startet für das Dokument eine OCR (Texterkennung), um den fehlenden Inhalt zu ergänzen und das Dokument durchsuchbar zu machen.

Das funktioniert jedoch nur bei den gängigen europäischen Sprachen.

📒 Weitere Artikel dieser Beitragsserie:

Rechts oben, unter „Newsletter abonnieren“, findest du das Suchfeld!
Gib „Paperless“ ein und drücke die [ENTER/EINGABE]-Taste, um alle Paperless-Artikel anzuzeigen.

Überblick

In diesem Beitrag stütze ich mich auf die Erfahrungen mit der Sprache Thailändisch und Schrift, die ich versucht habe einzurichten. In der Sprachenübersicht findest du die Anderen Sprachen und was du mit OCR Texterkennung rausholen kannst.

Nun, alleine das konfigurieren der OSC Sprachen kann schon dazu führen, das der WEB Server nicht mehr startet. Aber auch wenn du es Schaft das Paperless deine OCR Sprache lädt und verwendet, kann es sein das du nur Einzelbuchstabenerkennung oder gar eine Buchstabensupper als Ergebnis bekommst – Mahlzeit 😁😂

Video: Paperless-NGX OCR Sprachen | Funktionierende vs. nicht funktionierende Sprachen

Sprache: 🇩🇪|🇬🇧
☝️ Benutze YouTube Untertitel für alle Sprachen.

Einrichten der OCR Sprachen

Nun, hier gibt es nicht viel zu beachten. In der docker-compose.yml müssen folgende Angaben unter environment: eingetragen sein:

PAPERLESS_OCR_LANGUAGES: deu tha eng

Damit werden die Sprachen Deutsch, Thailändisch und Englisch für die OCR aktiviert.
Beachte, dass die Sprachen hier mit einem Leerzeichen getrennt werden müssen.

⚠️ Nicht verwenden:

# PAPERLESS_OCR_LANGUAGE: deu+tha+eng

Diesen Wert solltest du nicht konfigurieren. Warum? Ich habe mehrfach Probleme damit gehabt – der Webserver startete anschließend nicht mehr, da die Sprachdateien nicht geladen werden. Bitte hier beachten das zur Trennung ein „+“ Zeichen verwendet werden muss.

Wir konfigurieren dies stattdessen in der Weboberfläche von Paperless, dort funktioniert es zuverlässig.

Gehe in der Paperless Oberfläche zu: Konfiguration → OCR-Einstellungen

Dort trägst du bei Sprache die benötigten Sprachcodes ein, z. B.: deu+tha+eng

Paperless lädt anschließend automatisch die entsprechenden Sprachdateien und verwendet sie korrekt.

Das Ergebnis mit folgenden Lösungen

Mit den Board eigenen Mitteln habe ich geschafft das die Schrift erkannt wird und die Texterkennung gestartet wird.

Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“

Also die Buchstaben mit Lehrzeichen getrennt ebenso wie Vokale und Tonzeichen – Unbrauchbar.

Das Ergebnis mit Python Skripten: Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“
Das Ergebnis mit externer Verarbeitung „Stirling PDF“: Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“

Wo liegt das Problem?

OK, das funktioniert nicht – aber woran liegt es? Testen wir also andere OCR-Anbieter, sowohl Online-Dienste als auch lokale Softwarepakete …

Ergebnis: Witzigerweise funktioniert es auch dort nicht. Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“.

Damit ist klar: Paperless ist nicht das Problem.

Paperless führt die Texterkennung (OCR) mit den besten verfügbaren Methoden aus. Das eigentliche Problem liegt darin, dass die OCR-Erkennung für bestimmte Schriftarten – insbesondere komplexe oder nicht-lateinische Schriften – schlecht oder gar nicht funktioniert.

Ende der Straße:

Hier hilft nur Geduld. Man muss warten, bis die OCR-Technologien so weit weiterentwickelt sind, dass sie auch mit „exotischen Sprachen“ wie Thai korrekt umgehen können. Die Entwicklung schreitet ständig voran – es ist also nur eine Frage der Zeit, bis auch diese Sprachen zuverlässig unterstützt werden.

✅ Voll funktionierende Sprachen (Lateinische Schriften)

Diese Sprachen werden korrekt mit Wort- und Satzerkennung verarbeitet:

Deutsch (deu) – Gute Erkennung, Umlaute korrekt
Englisch (eng) – Beste Ergebnisse, optimierte Erkennung
Französisch (fra) – Akzente und Sonderzeichen korrekt
Spanisch (spa) – Akzente und ñ-Zeichen funktionieren
Italienisch (ita) – Gute Satzerkennung
Portugiesisch (por) – Grundlegende Funktion

⚠️ Eingeschränkt funktionierende Sprachen

Technisch installierbar, aber mit Erkennungsproblemen:

Thai (tha)

Ergebnis: Einzelzeichen mit Leerzeichen getrennt
Beispiel: „ส วั ส ด ี“ statt „สวัสดี“
Brauchbarkeit: Nicht durchsuchbar/weiterverarbeitbar

Arabisch (ara)

Ergebnis: Rechts-links Erhalt meist gebrochen, Zeichenisolierung
Problem: Verbundschrift wird aufgelöst, Kontext verloren
Brauchbarkeit: Eingeschränkt bis unbrauchbar

Japanisch (jpn)

Ergebnis: Kanji, Hiragana, Katakana gemischt, aber fehleranfällig
Problem: Komplexe Zeichen werden oft falsch erkannt
Brauchbarkeit: Nur für einfache Texte bedingt geeignet

Chinesisch (chi_sim/chi_tra)

Ergebnis: Viele Zeichenfehler, ähnliche Zeichen verwechselt
Problem: Tausende Logogramme überfordern die Erkennung
Brauchbarkeit: Unzuverlässig für seriöse Dokumentenverarbeitung

Koreanisch (kor)

Ergebnis: Hangul-Silbenblock-Erkennung teilweise funktional
Problem: Komplexe Silben werden fehlsegmentiert
Brauchbarkeit: Bedingt brauchbar für einfache Texte

Russisch (rus)

Ergebnis: Kyrillische Buchstaben meist korrekt
Problem: Bessere Ergebnisse als asiatische Schriften, aber schlechter als lateinische
Brauchbarkeit: Akzeptabel für Standardtexte

❌ Nicht-OCR „Sprachen“

osd – Nur Layout-Erkennung (Textausrichtung, Schriftsystem)

Fazit

Paperless-ngx OCR funktioniert zuverlässig nur mit lateinischen Schriften. Nicht-lateinische Schriften werden technisch unterstützt, liefern aber praktisch unbrauchbare Ergebnisse durch falsche Zeichentrennung und Erkennungsfehler.

Brauchbarkeits-Ranking:

Lateinische Schriften – ✅ Voll funktionsfähig
Kyrillisch – ⚠️ Eingeschränkt brauchbar
Arabisch/Thai – ❌ Praktisch unbrauchbar
Asiatische Schriften – ❌ Unzuverlässig bis unbrauchbar

Für Dokumente in nicht-lateinischen Schriften ist OCR Texterkennung derzeit keine Lösung – die OCR-Ergebnisse sind nicht durchsuchbar und nicht weiterverarbeitbar.

Der einzige Nachteil ist, dass die „In-Text-Suche“ mit diesen per OCR verarbeiteten Dokumenten nicht funktioniert. Und genau das ist eigentlich einer der größten Vorteile des DMS-Systems Paperless.

Aber was soll’s? Paperless steht dadurch nicht schlechter da als andere DMS-Systeme – denn diese haben das gleiche Problem.

Gerade im asiatischen Raum bin ich zuversichtlich, dass hier bald die entsprechenden Sprach-Trainingsdateien veröffentlicht werden, die eine deutlich bessere Texterkennung ermöglichen.

Link zur Unterstützung / Spende für den Kanal
Wenn meine Beiträge hilfreich sind oder dir geholfen haben, würde ich mich über eine Unterstützung sehr freuen 🙏

PayPal Link
Überweisung, Bitcoin und Lightning

#PaperlessNGX #OCR #Dokumentenmanagement #Spracherkennung #Texterkennung #Dokumentendigitalisierung #Aktenverwaltung #Sprachsupport #LateinischeSchriften #AsiatischeSchriften #ArabischeSchriften #Thailändisch #Japanisch #Chinesisch #Koreanisch #Russisch #Sprachlimitierungen

📒 Weitere Artikel dieser Beitragsserie: