Outils pour utilisateurs

Outils du site


ocr

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ocr [2013/01/21 09:53]
florian
ocr [2023/03/17 09:56] (Version actuelle)
Ligne 1: Ligne 1:
 +====== OCR PDF ======
 +
 Commande pour OCRiser un fichier pdf image : Commande pour OCRiser un fichier pdf image :
 +<​code>​IMG2OCRPDFCS <fichier source> <fichier destination>​ <​ocrmode>​ <​jobqueueid>​ <fichier texte> <fichier config></​code>​
 +  * <fichier source> ​ : le fichier à OCRiser.
 +  * <fichier desination > : le nom du fichier après OCRisation.
 +  * <​ocrmode>​ : le numéro de la tentative.
 +  * <fichier config > : le fichier de configuration opcsdk.conf
 +
 +Exemple:
 +<​code>​
 +C:​\usr\local\nchp\opcsdk\IMG2OCRPDFCS.exe monfichier.pdf monfichier.ocr.pdf 0 0 monfichier.txt C:​\nchp\etc\nchp\ezged\opcsdk.conf ​
 +</​code>​
 +
 +====== OCR PDF + CB ======
 +Commande pour OCRiser avec lecture de code à barres:
 +<​code>​
 +IMG2OCRPDFCBCS <ficher source> <fichier destination>​ <​ocrmode>​ <​jobqueueid>​ <fichier texte> <fichier config> <​page_1_seule>​ <type cb> <code page> <max bc> <​resolution>​ <​orientation>​ <max inclinaison>​ <​zone>​
 +</​code>​
 +
 +
 +====== OCR Paramètres ======
 +
 +Paramètres modifiable du fichier opcsdk.conf
 +
 +par défaut l'ocr est limité en taille d'​image à 8400 pixels en largeur et 8400 pixels en hauteur
 +**pour autoriser l'OCR sur les fichiers plus gros** vous pouvez ajouter ces paramètres au fichier opcsdk.conf
 +
 +<​code>​
 +Kernel.Img.Max.Pix.X = 32000
 +Kernel.Img.Max.Pix.Y = 32000
 +</​code>​
 +ATTENTION, les performances peuvent être dégradées et nous ne garantissons pas la sortie correcte du fichier Ocrisé, en effet nous avons constatés des bugs de rendu d'​image sur certains plans noir et blanc dépassant le A0. Nous vous conseillons donc de garder les formats d'​origine dans ces cas. 32000 est le maximum, ne le dépassez pas.
 +
 +**pour définir le format de sortie en PDF/A** Modifier ce paramètre qui par défaut est en PDF1.4
 +
 +<​code>​
 +Converters.Text.PDFImageOnText.Compatibility = PDF-A
 +</​code>​
 +
 +**pour définir le format par défaut de compression MRC couleur**
 +0 = No compression
 +1 = Haute compression qualité minimale
 +2 = Moyenne compression qualité bonne
 +3 = Faible compression qualité sans perte
 +
 +<​code>​
 +Converters.Text.PDFImageOnText.UseMRC = 2
 +</​code>​
 +
 +**pour définir le qualité des couleurs** quand MRC n'est pas utilisé (noir et blanc par exemple)
 +1 = Haute compression qualité minimale
 +2 = Moyenne compression qualité bonne
 +3 = Faible compression qualité sans perte
 +
 +<​code>​
 +Converters.Text.PDFImageOnText.ColorQuality = 2
 +</​code>​
 +
 +
 +====== Conversion vers Office ======
 +Voici comment tester la conversion en ligne de commande :
 +<​code>​IMG2OCRWORDCS <fichier source> <fichier destination>​ <​ocrmode> ​ <​jobqueueid>​ <fichier texte> <fichier config> <​format></​code>​
 +  * <fichier source> ​ : le fichier à convertir.
 +  * <fichier desination > : le nom du fichier une fois qu'il sera converti.
 +  * <​ocrmode>​ : le numéro de la tentative (pour tester via un terminal mettre 0)
 +  * <​jobqueueid>​ : numéro de travail (pour tester via un terminal mettre 0)
 +  * <fichier texte> : fichier vers lequel sera extrait le texte
 +  * <fichier config > : le fichier de configuration opcsdk.conf
 +  * <​format>​ : format vers lequel la conversion sera effectuée
 +
 +/!\ Si vous souhaitez convertir vers le format **docx** vérifiez que le **.Net Framework 3.5** est bien installé sur votre serveur.
 +
 +Sinon en testant la conversion en ligne de commande vous aurez un joli message d'​erreur :
 +  Erreur 18 :​API_ERROR_ERR
   ​   ​
-  * fichier source ​ : le fichier à OCRiser. +====== Problèmes d'OCR et résolutions ====== 
-<fichier desination > le nom du fichier après OCRisation+ 
-<​ocrmode> ​: le numéro de la tentative+===== Pas d'OCR sur certains documents ===== 
-<fichier config > le fichier de configuration opcsdk.conf+Symptôme ​Des documents types .docx, .msg voire certains pdf, ne sont pas OCRisés. 
 + 
 +RésolutionVérifiez que le .NET Framework 3.5 est bien installé. 
 + 
 +{{wiki:install_net35_win2012.png?​800x496}}
ocr.1358762023.txt.gz · Dernière modification: 2023/03/17 09:56 (modification externe)