Paperless-NGX OCR Sprachen | Funktionierende vs. nicht funktionierende Sprachen
Ein delikates Thema: Paperless-NGX OCR Sprachen. Funktionierende vs. nicht funktionierende Sprachen in der Paperless OCR Erkennung.
Viele Dokumente enthalten bereits den Sprachinhalt in der PDF-Datei, und wenn Paperless richtig eingestellt ist, bleibt dieser Inhalt auch erhalten.
Kommen wir nun zu den Dokumenten, die gescannt werden – hier tritt das Problem immer auf. Paperless startet für das Dokument eine OCR (Texterkennung), um den fehlenden Inhalt zu ergänzen und das Dokument durchsuchbar zu machen.
Das funktioniert jedoch nur bei den gängigen europäischen Sprachen.
📒 Weitere Artikel dieser Beitragsserie:
Rechts oben, unter „Newsletter abonnieren“, findest du das Suchfeld!
Gib „Paperless“ ein und drücke die [ENTER/EINGABE]-Taste, um alle Paperless-Artikel anzuzeigen.
Überblick
In diesem Beitrag stütze ich mich auf die Erfahrungen mit der Sprache Thailändisch und Schrift, die ich versucht habe einzurichten. In der Sprachenübersicht findest du die Anderen Sprachen und was du mit OCR Texterkennung rausholen kannst.
Nun, alleine das konfigurieren der OSC Sprachen kann schon dazu führen, das der WEB Server nicht mehr startet. Aber auch wenn du es Schaft das Paperless deine OCR Sprache lädt und verwendet, kann es sein das du nur Einzelbuchstabenerkennung oder gar eine Buchstabensupper als Ergebnis bekommst – Mahlzeit 😁😂
Video: Paperless-NGX OCR Sprachen | Funktionierende vs. nicht funktionierende Sprachen
Sprache: 🇩🇪|🇬🇧
☝️ Benutze YouTube Untertitel für alle Sprachen.
Einrichten der OCR Sprachen
Nun, hier gibt es nicht viel zu beachten. In der docker-compose.yml müssen folgende Angaben unter environment: eingetragen sein:
PAPERLESS_OCR_LANGUAGES: deu tha eng
Damit werden die Sprachen Deutsch, Thailändisch und Englisch für die OCR aktiviert.
Beachte, dass die Sprachen hier mit einem Leerzeichen getrennt werden müssen.
⚠️ Nicht verwenden:
# PAPERLESS_OCR_LANGUAGE: deu+tha+eng
Diesen Wert solltest du nicht konfigurieren. Warum? Ich habe mehrfach Probleme damit gehabt – der Webserver startete anschließend nicht mehr, da die Sprachdateien nicht geladen werden. Bitte hier beachten das zur Trennung ein „+“ Zeichen verwendet werden muss.
Wir konfigurieren dies stattdessen in der Weboberfläche von Paperless, dort funktioniert es zuverlässig.
Gehe in der Paperless Oberfläche zu: Konfiguration → OCR-Einstellungen
Dort trägst du bei Sprache die benötigten Sprachcodes ein, z. B.: deu+tha+eng
Paperless lädt anschließend automatisch die entsprechenden Sprachdateien und verwendet sie korrekt.
Das Ergebnis mit folgenden Lösungen
Mit den Board eigenen Mitteln habe ich geschafft das die Schrift erkannt wird und die Texterkennung gestartet wird.
Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“
Also die Buchstaben mit Lehrzeichen getrennt ebenso wie Vokale und Tonzeichen – Unbrauchbar.
Das Ergebnis mit Python Skripten: Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“
Das Ergebnis mit externer Verarbeitung „Stirling PDF“: Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“
Wo liegt das Problem?
OK, das funktioniert nicht – aber woran liegt es? Testen wir also andere OCR-Anbieter, sowohl Online-Dienste als auch lokale Softwarepakete …
Ergebnis: Witzigerweise funktioniert es auch dort nicht. Ergebnis: „ส วั ส ด ี“ statt „สวัสดี“.
Damit ist klar: Paperless ist nicht das Problem.
Paperless führt die Texterkennung (OCR) mit den besten verfügbaren Methoden aus. Das eigentliche Problem liegt darin, dass die OCR-Erkennung für bestimmte Schriftarten – insbesondere komplexe oder nicht-lateinische Schriften – schlecht oder gar nicht funktioniert.
Ende der Straße:
Hier hilft nur Geduld. Man muss warten, bis die OCR-Technologien so weit weiterentwickelt sind, dass sie auch mit „exotischen Sprachen“ wie Thai korrekt umgehen können. Die Entwicklung schreitet ständig voran – es ist also nur eine Frage der Zeit, bis auch diese Sprachen zuverlässig unterstützt werden.
✅ Voll funktionierende Sprachen (Lateinische Schriften)
Diese Sprachen werden korrekt mit Wort- und Satzerkennung verarbeitet:
- Deutsch (deu) – Gute Erkennung, Umlaute korrekt
- Englisch (eng) – Beste Ergebnisse, optimierte Erkennung
- Französisch (fra) – Akzente und Sonderzeichen korrekt
- Spanisch (spa) – Akzente und ñ-Zeichen funktionieren
- Italienisch (ita) – Gute Satzerkennung
- Portugiesisch (por) – Grundlegende Funktion
⚠️ Eingeschränkt funktionierende Sprachen
Technisch installierbar, aber mit Erkennungsproblemen:
Thai (tha)
- Ergebnis: Einzelzeichen mit Leerzeichen getrennt
- Beispiel: „ส วั ส ด ี“ statt „สวัสดี“
- Brauchbarkeit: Nicht durchsuchbar/weiterverarbeitbar
Arabisch (ara)
- Ergebnis: Rechts-links Erhalt meist gebrochen, Zeichenisolierung
- Problem: Verbundschrift wird aufgelöst, Kontext verloren
- Brauchbarkeit: Eingeschränkt bis unbrauchbar
Japanisch (jpn)
- Ergebnis: Kanji, Hiragana, Katakana gemischt, aber fehleranfällig
- Problem: Komplexe Zeichen werden oft falsch erkannt
- Brauchbarkeit: Nur für einfache Texte bedingt geeignet
Chinesisch (chi_sim/chi_tra)
- Ergebnis: Viele Zeichenfehler, ähnliche Zeichen verwechselt
- Problem: Tausende Logogramme überfordern die Erkennung
- Brauchbarkeit: Unzuverlässig für seriöse Dokumentenverarbeitung
Koreanisch (kor)
- Ergebnis: Hangul-Silbenblock-Erkennung teilweise funktional
- Problem: Komplexe Silben werden fehlsegmentiert
- Brauchbarkeit: Bedingt brauchbar für einfache Texte
Russisch (rus)
- Ergebnis: Kyrillische Buchstaben meist korrekt
- Problem: Bessere Ergebnisse als asiatische Schriften, aber schlechter als lateinische
- Brauchbarkeit: Akzeptabel für Standardtexte
❌ Nicht-OCR „Sprachen“
- osd – Nur Layout-Erkennung (Textausrichtung, Schriftsystem)
Fazit
Paperless-ngx OCR funktioniert zuverlässig nur mit lateinischen Schriften. Nicht-lateinische Schriften werden technisch unterstützt, liefern aber praktisch unbrauchbare Ergebnisse durch falsche Zeichentrennung und Erkennungsfehler.
Brauchbarkeits-Ranking:
- Lateinische Schriften – ✅ Voll funktionsfähig
- Kyrillisch – ⚠️ Eingeschränkt brauchbar
- Arabisch/Thai – ❌ Praktisch unbrauchbar
- Asiatische Schriften – ❌ Unzuverlässig bis unbrauchbar
Für Dokumente in nicht-lateinischen Schriften ist OCR Texterkennung derzeit keine Lösung – die OCR-Ergebnisse sind nicht durchsuchbar und nicht weiterverarbeitbar.
Der einzige Nachteil ist, dass die „In-Text-Suche“ mit diesen per OCR verarbeiteten Dokumenten nicht funktioniert. Und genau das ist eigentlich einer der größten Vorteile des DMS-Systems Paperless.
Aber was soll’s? Paperless steht dadurch nicht schlechter da als andere DMS-Systeme – denn diese haben das gleiche Problem.
Gerade im asiatischen Raum bin ich zuversichtlich, dass hier bald die entsprechenden Sprach-Trainingsdateien veröffentlicht werden, die eine deutlich bessere Texterkennung ermöglichen.

Link zur Unterstützung / Spende für den Kanal
Wenn meine Beiträge hilfreich sind oder dir geholfen haben, würde ich mich über eine Unterstützung sehr freuen 🙏
#PaperlessNGX #OCR #Dokumentenmanagement #Spracherkennung #Texterkennung #Dokumentendigitalisierung #Aktenverwaltung #Sprachsupport #LateinischeSchriften #AsiatischeSchriften #ArabischeSchriften #Thailändisch #Japanisch #Chinesisch #Koreanisch #Russisch #Sprachlimitierungen