Syntaxe ImageParser

ImageParser(#ImageParser) est un module de CodX PostOffice permettant de contrôler le traitement des images. Un fichier de configuration XML indique comment l'image doit être traitée.

Le fichier XML se compose de règles (ParserRule) avec des éléments d'image (Element) et des critères d'évaluation (Criteria).

Exemple de fichier de configuration ImageParser

<ImageParser Name="Parser 1" Timeout="10000" Reference="SN-AZD, FE" Remark="C'est une remarque">
<ParserRule Name="Rolle 1" Rotate="0, 30, 60, 90" Origin="top_left" Trim="Bottom, Right " FirstPage="1" LastPage="3">
<Elément Name="Élément 1" x="100 px" y="200 px" h="50 mm" w="40 mm" Type="Texte" Rotate="0, 90, 180, 270" ValidValue="[a-z]+" Prerequisite="Mandatory" SBB-CF="Code alternatif"></Elément>
<Elément Name="Élément 2" x="200 px" y="400 px" h="50 mm" w="40 mm" Type="Barcode" BarcodeType="All" Rotate="0" PreProcess="BRectS" InvalidValue="( ?<Invalid>[^[0-9a-zA-Z()-/\s\öüéàèÖÄÜ])"></Elément>
<Elément Name="Elément 3" x="300 px" y="500 px" h="50 mm" w="40 mm" Type="UPOC" Rotate="0" ValidValue="[0-9]+"></élément>
<élément Name="PostAdr1" Type="PostalAddress"ValidValue="[AdrLevel_City]"></élément>
<Criteria Name="Criteria 1" Operation="AND" ElementName="Élément 1" RegEx="[a-z]+"></Criteria>
<Criteria Name="Criteria 2" Operation="AND" ElementName="Élément 2" RegEx="[0-9]+"></Criteria>
<Criteria Name="Criteria 3" Operation="OR" ElementName="Élément 3" RegEx="04[0-9]+"></Criteria>
<Criteria Name="Criteria 3" Operation="AND" ElementName="PostAdr1" RegEx="[AdrLevel_City]"></Criteria>
</ParserRule>
<ParserRule Name="Rôle 2" Rotate="0, -30, -60, -90" Origin="top_left" Trim="Top">
<Elément Name="Élément 1" x="100 px" y="200 px" h="50 mm" w="40 mm" Type="Texte" Rotate="0, 90, 180, 270" ValidValue="[a-z]+"></élément>
<Elément Name="Élément 2" x="200 px" y="400 px" h="50 mm" w="40 mm" Type="Code-barres" Rotate="0" ValidValue="[a-z]+"></élément>
<Element Name="Élément 3" x="300 px" y="500 px" h="50 mm" w="40 mm" Type="UPOC" Rotate="0" ValidValue="[0-9]+"></élément>
<Criteria Name="Criteria 1" Operation="AND" ElementName="Élément 1" RegEx="[a-z]+"></Criteria>
<Criteria Name="Criteria 2" Operation="AND" ElementName="Élément 2" RegEx="[0-9]+"></Criteria>
<Criteria Name="Criteria 3" Operation="OR" ElementName="Élément 3" RegEx="04[0-9]+"></Criteria>
</ParserRule>

</ImageParser>Tags

Le fichier de configuration XML est structuré comme suit :

ImageParser

Contient 1 ou plusieurs balises de 'ParserRule'.

Attribut	Description
Nom	Nom de l'ImageParser
Timeout	Temps de traitement maximal en millisecondes. Lorsque le timeout est atteint, le traitement est interrompu et aucun résultat n'est renvoyé.Cet attribut est facultatif, la valeur par défaut est de 3500 ms et le timeout maximal autorisé est de 100000 ms.
Si le timeout est égal à 0 ou inférieur à 0, le timeout est mis à la valeur standard, s'il est supérieur à la valeur maximale autorisée, il est remis à la valeur maximale.
Reference	Référence au module/à la fonction qui utilise cet ImageParser. Si un ImageParser est utilisé dans plusieurs modules, les noms des modules sont séparés par une virgule.
Les valeurs suivantes sont possibles : R-SCAN CxLetterScan en mode 'R-Scan' CxLetterScan en mode 'Maintenance' Module R-Scan SCANNER CxLetterScan en mode 'Scanner' CAPTURE CxLetterScan en mode 'Capture' SORT CxLetterScan en mode 'Sort' DIGITAL Numérisation
Remark	Remarque sur ImageParser.
Cet attribut est facultatif.
SafeMode	Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), l'ImageParser fonctionne en mode sans échec. Dans ce cas, un seul thread et diverses optimisations sont utilisés en interne pour une consommation minimale de la mémoire RAM. Si l'image à traiter est multicolore ou a une résolution supérieure à celle définie dans l'attribut SafeModeResolution, l'image est automatiquement convertie en une image en niveaux de gris de 8 bits avant l'analyse. ATTENTION ! N'utilisez cette option que si de très grandes images sont traitées !
La durée de traitement augmente ainsi fortement (environ 5..10 fois), adaptez l'attribut Timeout en conséquence.
SafeModeResolution	Facultatif, plage de valeurs : 100..300 [DPI], par défaut : 200 [PDI]. N'est utilisé que si l'attribut *SafeMode* est activé. Définit la résolution d'image [DPI] utilisée en mode sans échec (voir ci-dessus).

ParserRule

Contient 1 ou plusieurs balises de 'Element' et 'Criteria

Attribut	Description
Nom	Nom de la ParserRule
Rotate	Liste des angles avec lesquels la valeur doit être lue.
Les angles sont séparés par une virgule. Les angles augmentent dans le sens des aiguilles d'une montre de 0 à 360°. ATTENTION : chaque angle supplémentaire multiplie en outre le temps de traitement !
Origine	de l'image.
Toutes les coordonnées se réfèrent à cette origine. Valeurs possibles : - top_left - top_right - bottom_left (default) - bottom_right Cet attribut est optionnel.
Trim	Optionnel.
Si cet attribut est défini, la partie correspondante de l'image qui est nettement plus sombre que le reste de l'image est coupée. Les valeurs possibles sont une combinaison des valeurs suivantes, séparées par une virgule : - Top - Bottom - Left - Right
FirstPage	Cet attribut n'est utilisé que si plusieurs documents sont traités en même temps, p. ex. dans la numérisation. Cette ParserRule est appliquée à partir de cette page.
Si la page à traiter est plus petite, la ParserRule est ignorée.
LastPage	Cet attribut n'est utilisé que si plusieurs documents sont traités en même temps, p. ex. dans la numérisation. Jusqu'à cette page, cette ParserRule est appliquée.

Si la page à traiter est plus grande, la ParserRule est ignorée.

Élément

Décrit l'élément à analyser.

Attribut	Description
Nom Nom	de l'élément, doit obligatoirement être présent ! CxLetterScan requiert obligatoirement certains éléments selon le mode (use-case).
Voir l'aide en ligne du mode correspondant.
Type Type	d'élément ; optionnel, valeur par défaut : texte. Les types suivants sont possibles : - texte: La section de l'élément est analysée par OCR et le texte reconnu est édité [1]. - Code-barres: La section de l'élément est analysée à la recherche d'un code-barres [1]. - UPOC: La section de l'élément est analysée à la recherche d'un code-barres et vérifie s'il s'agit d'un UPOC valable (type, mandant, ID, somme de contrôle) [1]. - PostalAddress: La section de l'élément est analysée avec OCR et le tokenizer d'adresse et l'adresse reconnue est éditée [2].
Voir aussi Adresses postales. - Subject: le sujet est recherché dans l'extrait défini de l'élément (ligne de texte la plus marquante), voirSubject.
OcrEngine	Facultatif, définit les moteurs OCR à utiliser. Contient un d Défaut (si non disponible ou vide) : - Pour les éléments Text, PostalAddress et Subject : Tesseract - Pour les éléments Barcode et UPOC : ByteScout Valeurs possibles : - Tesseract - CxOCRService - ByteScout Si le moteur CxOCRService est utilisé, les restrictions suivantes s'appliquent : - Nécessite une licence LIC_F_CX_OCR_SERVICE_OCR - Si la licence n'est pas disponible ou si CxOCRService est désactivé, Tesseract est automatiquement utilisé - Ne peut être utilisé que pour des éléments de texte et PostalAddress (pas Subject/Barcode/UPOC) -
Aucun style ne peut être utilisé - Un seul angle doit être utilisé - Ne peut pas être utilisé pour les éléments relatifs (Parent/Child) - Pour plus d'informations, voir AdminDoc (#CxOCRService)
OverwriteMode	Optionnel, Définit si/comment les données existantes d'un envoi sont écrasées. Défaut : NotEmpty La règle ne s'applique que si une valeur valide est lue par ImageParser pour l'attribut de l'envoi. Si aucune valeur ou une valeur vide est lue, la valeur originale de l'envoi n'est jamais écrasée.

Valeurs possibles : - NotEmpty: n'écraser l'attribut d'envoi existant que si celui-ci est vide - Never: ne jamais écraser l'attribut d'envoi existant - Always: toujours écraser l'attribut d'envoi existant
x	Coordonnée X du coin supérieur gauche de l'élément. La coordonnée se réfère à l'origine de l'image. Une unité peut être indiquée en option, par défaut = px (pixels). Les unités suivantes sont possibles : - px: pixels (par défaut) - %:
Pourcentage, par rapport à l'image entière - mm: millimètres (uniquement si la résolution est connue)
y	Coordonnée Y du coin supérieur gauche de l'élément. La coordonnée se réfère à l'origine de l'image. Une unité peut être indiquée en option, par défaut = px (pixels). Les unités suivantes sont possibles : - px: pixels (par défaut) - %:
Pourcentage, par rapport à l'image entière - mm: millimètres (uniquement si la résolution est connue).
h	Hauteur de l'élément. Une unité peut être indiquée en option, par défaut = px (pixel). Les unités suivantes sont possibles : - px: pixel (par défaut) - %:
Pourcentage, par rapport à l'image entière - mm: millimètres (uniquement si la résolution est connue).
w	Largeur de l'élément. Une unité peut être indiquée en option, par défaut = px (pixels). Les unités suivantes sont possibles : - px: pixels (par défaut) - %:
Pourcentage, par rapport à l'image entière - mm: Millimètres (uniquement si la résolution est connue)
BarcodeType	Type de code-barres. Pertinent uniquement pour le type 'code-barres'. Plusieurs types de codes-barres peuvent être indiqués. Ceux-ci sont indiqués séparés par une virgule. Les types de codes-barres suivants sont possibles : - All (ou pas d'indication) : La recherche porte sur tous les types de codes-barres ci-dessous. - All1D : La recherche porte sur tous les types de codes-barres 1D - All2D : On recherche tous les types de codes à barres 2D - AustralianPostCode - Aztec - Circular2of5 - Codabar - CodablockF - Code128 - Code16K - Code39 - Code39Extended - Code39Mod43 - Code39Mod43Extended - Code93 - DataMatrix - EAN13 - EAN2 - EAN5 - EAN8 - GS1 - GS1DataBarExpanded - GS1DataBarExpandedStacked - GS1DataBarLimited - GS1DataBarStacked - GS1DataBarOmnidirectionnel - GTIN12 (UPC-A avec 12 symboles) - GTIN13 (EAN-13) - GTIN14 (I2of5 avec 14 digits) - GTIN8 (EAN-8) - IntelligentMail - Interleaved2of5 - ITF14 (I2of5 avec 14 digits) - MaxiCode - MICR - MicroPDF - MSI - PatchCode - PDF417 - Pharmacode - PostNet - PZN - QRCode - RoyalMail - RoyalMailKIX - TriopticCode39 - UPCA - UPCE - UPU Cet attribut est facultatif, la valeur par défaut est 'All'.
Rotate	Facultatif, par défaut = 0 (0°). Angle en degrés [°] dont l'élément doit être tourné pour être lisible horizontalement de gauche à droite . Les angles sont saisis séparés par une virgule. Les angles augmentent dans le sens des aiguilles d'une montre de 0 à 360°. Les indications négatives sont autorisées, elles sont automatiquement converties en l'angle positif correspondant, par ex. -20° = + 340°. La rotation de l'élément se fait après la rotation de l'image complète (voir l'attribut Rotate de Tag ParserRule) et après la découpe de l'élément selon les attributs y,x,h, w. ATTENTION: Chaque angle supplémentaire multiplie encore le temps de traitement ! Afin d'éviter des lectures erronées d'éléments de codes à barres et en particulier d'éléments UPOC, il est important que les angles possibles soient correctement définis. Le moteur OCR de codes à barres utilisé en interne supporte les angles de rotation discrets suivants : 0°, 11°, 22°, 45°, 90°, 135°, 158°, 169°, 180°, 191°, 202°, 225°, 270°, 315°, 338°, 349°. Les angles indiqués sont arrondis à l'angle le plus proche. Des indications d'angle supplémentaires sont impératives lorsque la torsion est supérieure à l'arc-tangente (^tan-1) du rapport entre la hauteur du trait et la longueur du code à barres. Exemple : hauteur du trait = 10 mm, longueur totale = 50 mm. Ainsi : Arctan(10/50)=11,3°.
Donc : si le code-barres peut être tourné de plus de 11°, la valeur 11 doit être ajoutée comme angle de rotation.
PreProcess	Optionnel, prétraitement de l'image pour la lecture OCR du code-barres, n'est disponible que pour le type Code-barres! Valeur par défaut : <vide> (pas de prétraitement) Les prétraitements suivants sont possibles : - BRectS: découpe de petites zones utilisées et traitement individuel. Améliore la lecture des codes à barres et des DataMatrix. Longue durée de traitement. - BRectM: Découpe de zones d'utilisation moyenne et traitement unique. Améliore la lecture des codes à barres et DataMatrix. Durée de traitement moyenne. - BRectL: Découpe de grandes zones utilisées et traitement unique. Améliore la lecture des codes à barres et des DataMatrix.
Temps de traitement court.
ValidValue	Expression RegEx qui définit une valeur valide de l'élément. L'élément n'a une valeur valable que si elle a été vérifiée selon l'expression RegEx. Dans le cas contraire, la valeur de l'élément est vide. A ne pas confondre avec 'RegEx' du critère. Si l'attribut 'ValidValue' n'est pas indiqué ou est vide, les valeurs par défaut suivantes s'appliquent : - texte: "[0-9,a-z,A-Z]+" - code-barres: "[0-9,a-z,A-Z]+" - UPOC: <vide>, la valeur est vérifiée en vérifiant la syntaxe UPOC.
Si un RegEx est indiqué, il est en outre évalué selon la syntaxe UPOC.
InvalidValue	Expression RegEx qui définit toutes les valeurs non valables d'un élément. L'élément ne peut contenir aucune de ces valeurs invalides, auquel cas l'élément est valide.
Si cet élément est saisi, il a la priorité sur l'élément "ValidValue". Si l'attribut 'InvalidValue' n'est pas indiqué ou est vide, la valeur par défaut reste vide et la règle pour 'ValidValue' est active.
OCRMinConfidence	Optionnel, par défaut = 0, disponible uniquement pour les types Text et PostalAddress. Cet attribut définit la qualité minimale (Confidence) que doit avoir au minimum le texte complet reconnu par la reconnaissance OCR pour la suite du traitement. Le paramètre global xxx est appliqué dans tous les cas pour chaque ligne individuelle ! Plage : 0% ...
100% Les textes bien reconnus ont une Confidence >= 50%, les mauvais < 30%.
Prerequisite	Cet attribut n'est utilisé que lors de la numérisation. Il définit si la valeur de cet élément doit impérativement être présente pour achever la numérisation.
Si l'élément n'est pas trouvé, il faut impérativement procéder à un traitement ultérieur ou à une saisie manuelle. Les valeurs suivantes sont possibles : - Optional - Mandatory - None
CFF-CF	Définit le nom du Custfields CFF (attributs d'envoi étendus) dans lequel la valeur déterminée de l'élément doit être enregistrée. ATTENTION: seuls les Custfields CFF de type *texte* sont supportés ! - Saisissez le nom et le type ( *texte* fixe) du Custfields CFF - Si le Custfields CFF doit être affiché dans l'UI des modules de saisie, il doit être configuré en conséquence dans lesprestations.
Ref	Facultatif, définit un élément relatif, voir éléments relatifs. Définit le nom de l'élément parent.
RefOrigin	Facultatif, définit le point de référence sur l'élément parent. Doit être défini en cas d'élément relatif.

Valeurs possibles : - top_left - top_right - bottom_left (default) - bottom_right
dx	Facultatif, définit la position X de l'élément relatif à partir de RefOrigin par rapport au parent
dy	Facultatif, définit la position Y de l'élément relatif à partir de RefOrigin par rapport au parent
Style	Facultatif, définit le style de l'élément. Plusieurs valeurs sont possibles, séparées par une virgule (","). Valeurs valables : - Normal: le texte n'est pas gras - Bold : le texte est gras - Larger: le texte est plus grand que l'élément référencé - Smaller: le texte est plus petit que l'élément référencé - Size : XX: le texte a exactement cette taille (en points) Exemple : Style="Size:10,Bold" Restrictions :

Non autorisé pour les éléments de type Barcode et UPOC Les valeurs Normal et Bold ne sont pas autorisées toutes les deux (exclusion mutuelle) Les valeurs Larger et Smaller ne sont pas autorisées toutes les deux (exclusion mutuelle) Les valeurs Larger ou Smaller ne sont autorisées que sur les éléments relatifs Les valeurs Larger ou Smaller sont autorisées si le parent n'est pas Barcode ou UPOC
FontsizeDetMode	Optionnel ; définit comment la propriété Fontsize est calculée en fonction de la taille de la police de chaque mot. Utilisé uniquement pour les éléments de type Subject et Text (si contenu dans Style Larger ou Smaller ou Size : XX ). Défaut : MajorityChars Valeurs possibles : - MajorityChars:
Fontsize de la majorité des caractères - MajorityWords: Fontsize de la majorité des mots - LargestWord: Fontsize du plus grand mot - SmallestWord: Fontsize du plus petit mot
BoldDetMode	Facultatif ; définit comment la propriété Bold est déterminée sur la base des mots individuels. Utilisé uniquement pour les éléments de type Subject et Text (s'ils sont contenus dans Style Normal ou Bold ).

Défaut : MajorityWords
Valeurs possibles :
- MajorityChars: la ligne est en gras si la majorité des caractères sont en gras
- MajorityWords: la ligne est en gras si la majorité des mots sont en gras
- AtLeastOneWord: la ligne est en gras si au moins un mot est en gras
- AllWords: la ligne est en gras si tous les mots sont en gras

[*1] : Si Type = Text, Barcode, UPOC , tous les attributs x,y,h,w doivent être définis !
[*2] :

Si Type = PostalAddress , tous les attributs x,y,h,w ou aucun doivent être définis !

Criteria

Décrit les critères qui doivent être remplis pour que cette ParserRule s'applique.

Si les critères ne sont pas remplis, la ParserRule suivante est traitée.
Ceci ne doit pas être confondu avec 'ValidValue' de l'élément !

Attribut	Description
Nom Nom	du critère
Opération	Indique comment le critère est lié logiquement. Valeurs possibles : 'AND', 'OR
ElementName	Nom de l'élément qui doit être vérifié.

RegEx

Expression RegEx qui doit être remplie.
Les éléments de type PostalAddress ne supportent AUCUN Critère, la validité est déterminée sur la base de règles internes !

Adresses postales

Les éléments de type PostalAddress sont traités comme suit :
Les attributs x, y, h, w sont facultatifs. S'ils ne sont pas indiqués (ou s'ils sont tous à 0), l'image entière est analysée à la recherche de blocs de texte.
Si les attributs x, y, h, w sont définis, seule la partie définie est utilisée (comme pour le type d'élément "Texte").
Les blocs de texte trouvés sont triés selon certains critères et analysés avec OCR et SortTree.

La première/meilleure adresse reconnue est éditée.
Si aucune valeur n'est définie pour ValidValue , tous les blocs d'adresses détectés sont retournés sous forme de chaîne, il n'y a PAS d'analyse avec SortTree !

Attributs spécifiques pour élément de type "PostalAddress"

Les attributs suivants sont spécifiques aux éléments de type "PostalAddress".
ATTENTION : Les attributs CutLength/CutWidth et ExclusionZone* s'excluent mutuellement, seule une des deux variantes peut être utilisée !
Pour les nouvelles définitions, la zone d'exclusion doit être définie avec ExclusionZone*.

Attribut	Description
ValidValue	Les pseudo-régions suivantes (par défaut : <vide>) sont supportées : - <vide> (par défaut) - [AdrLevel_Country] - [AdrLevel_City] - [AdrLevel_Street] - [AdrLevel_House] - [AdrLevel_Name]
CutLength	Optionnel, par défaut = 0 (aucune zone d'exclusion). Définit une zone d'exclusion en [mm] pour les blocs de texte détectés automatiquement (x,y,h,w = 0) sur les deux grands côtés de l'image.
Les blocs de texte détectés qui chevauchent cette zone sont ignorés.
CutWidth	Facultatif, par défaut = 0 (pas de zone d'exclusion). Définit une zone d'exclusion en [mm] pour les blocs de texte trouvés automatiquement (x,y,h,w = 0) sur les deux côtés courts de l'image.
Les blocs de texte détectés qui chevauchent cette zone sont ignorés.
ValidateAddress	Facultatif, plage de valeurs : 0/1, par défaut : 0 Définit comment les adresses trouvées sont vérifiées selon *ValidValue. 0 : La vérification se fait par décomposition via Tokenizer et test de non vide* (jusqu'au niveau défini par *ValidValue* ) 1 : La vérification se fait par rapport aux données territoriales de l'administration de district.
L'adresse doit être valable au moins jusqu'au niveau défini par *ValidValue*.
ExclusionZoneTop	Facultatif, si non disponible, le réglage par défaut est utilisé. Définit une zone d'exclusion au bord supérieur [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés.
ExclusionZoneBottom	Facultatif, si non disponible, le réglage par défaut est utilisé.

Définit une zone d'exclusion en bas [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés.
ExclusionZoneLeft	En option, si elle n'existe pas, le réglage par défaut est utilisé. Définit une zone d'exclusion à gauche [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés.
ExclusionZoneRight	En option, si elle n'existe pas, le réglage par défaut est utilisé.

Définit une "zone d'exclusion" sur la marge de droite [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés.
DisableCodingZone	Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), les zones
d'	affranchissement
fixes définies en interne ne sont pas appliquées.
DisableFrankingZone	Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), les zones d'affranchissement fixes définies en interne ne sont pas appliquées.
RefPointMode	Optionnel, par défaut = 0 (pas de zone d'exclusion). Les pseudo-réglages suivants (par défaut : <vide>) sont supportés : - AutoBasedFullImage - AutoBasedExclZone - ValueBasedExclZone Si AutoBasedExclZone ou ValueBasedExclZone est défini, les attributs CutLength et CutWidthNE doiventPAS être définis. Les zones d'exclusion doivent être définies par ExclusionZone. Si ValueBasedExclZone* est défini :

alors les deux attributs RefPointX et RefPointY doivent être définis - les attributs CutLength et CutWidth NE doivent PAS être définis - DisableCodingZone et DisableFrankingZone doivent être True
RefPointX	Point de référence X-Coodinate en [mm],
%] ou pixels (à partir de la gauche) Utilisé uniquement si RefPointMode = ValueBasedExclZone
RefPointY	Point de référence coodonnée Y en [mm], [%] ou pixels (à partir du haut) Utilisé uniquement si RefPointMode = ValueBasedExclZone
DoAddressSearch	TODO Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), l'image est toujours recherchée pour les adresses.

Forcer la recherche de l'adresse, exécuter TextBoxDetector même si la section de l'image est prédéfinie
TODO : Conditions
Vide/non disponible = automatiquement

Éléments relatifs

TODO

Regex

Les expressions Regex doivent être saisies selon la syntaxe DEELX Regular Expression .
ATTENTION: Pour intégrer des expressions Regex dans des attributs XML, il faut éventuellement les échapper !

Utilisez pour cela un outil en ligne correspondant, par ex. Code Beautity.

Groupes de capture nommés

L'analyseur d'images supporte les groupes de capture nommés.

Le nom du groupe doit être identique au nom de l'élément.
Ex : (?<Subject>.*)
Élément complet, y compris l'échappement :

<Element

Name="Subject" Type="Text" ValidValue="(?<Subject&gt ;.*)">

Single-/Multiline, Mode Modifier

Ex : Pour ne matcher que la première ligne d'un texte de plusieurs lignes : ( ?-s).*

Subject

Le sujet est recherché dans la section définie de l'élément (ligne de texte la plus marquante).

Un score est alors calculé pour chaque ligne de texte lue, la ligne avec le score le plus élevé contient le sujet.

Formule pour le calcul du score de la ligne :
LineScore = (BlockScore * OwnBlockFactor) + (ParagraphScore * OwnParaFactor) + (BoldScore * BoldFactor) + (FontsizeScore * FontsizeFactor) + (PositionScore * PositionFactor) + (KeywordScore * KeywordFactor)

Les attributs suivants sont spécifiques aux éléments du type Subject.

<lean>

Attribut	Description	Valeur par défaut
LinePosDetMode	Facultatif ; définit le point de référence utilisé pour calculer le PositionScore (par rapport au centre de l'image découpée). Valeurs possibles : - LineCenter:
Centre/centre de la ligne - ShortestCorner: distance la plus courte d'un coin de la ligne	LineCenter
Keywords	Facultatif ; définit des mots-clés pour reconnaître le sujet. Saisissez une liste de mots-clés, séparés par une virgule.
KeywordFactor	Optionnel ; définit le facteur de mot-clé pour le calcul du score de la ligne.	1.0
OwnBlockFactor	Optionnel ; définit le facteur OwnBlock pour le calcul du score de la ligne..	0.0
OwnParaFactor	Optionnel ; définit le facteur OwnParagraph pour le calcul du score de la ligne.	0.05
BoldFactor	Optionnel ; définit le facteur Bold pour le calcul du score de ligne. Voir aussi l'élément Attribut *BoldDetMode*	0.40
FontsizeFactor	Optionnel ; définit le facteur Fontsize pour le calcul du score de ligne. Voir aussi l'élément Attribut *FontsizeDetMode*	0.40
PositionFactor	Optionnel ; définit le facteur de position pour le calcul du score de ligne.	0.30
MinLength	Optionnel ; définit la longueur minimale d'une ligne.	4
MaxLength	Optionnel ; définit la longueur maximale d'une ligne.	0 (pas de longueur maximale)

Fonctionnement

Vous trouverez le fonctionnement et des informations complémentaires dans l'AdminDoc (recherchez 'ImageParser').

Voir aussi

CodX Software AG
Rue de Sins 47
6330 Cham
Suisse

Support
http://support.codx.ch