Syntaxe ImageParser
ImageParser(#ImageParser) est un module de CodX PostOffice permettant de contrôler le traitement des images.
Un fichier de configuration XML indique comment l'image doit être traitée.
Le fichier XML se compose de règles (ParserRule) avec des éléments d'image (Element) et des critères d'évaluation (Criteria).
Exemple de fichier de configuration ImageParser
<ImageParser Name="Parser 1" Timeout="10000" Reference="SN-AZD, FE" Remark="C'est une remarque"> <ParserRule Name="Rolle 1" Rotate="0, 30, 60, 90" Origin="top_left" Trim="Bottom, Right " FirstPage="1" LastPage="3"> <Elément Name="Élément 1" x="100 px" y="200 px" h="50 mm" w="40 mm" Type="Texte" Rotate="0, 90, 180, 270" ValidValue="[a-z]+" Prerequisite="Mandatory" SBB-CF="Code alternatif"></Elément> <Elément Name="Élément 2" x="200 px" y="400 px" h="50 mm" w="40 mm" Type="Barcode" BarcodeType="All" Rotate="0" PreProcess="BRectS" InvalidValue="( ?<Invalid>[^[0-9a-zA-Z()-/\s\öüéàèÖÄÜ])"></Elément> <Elément Name="Elément 3" x="300 px" y="500 px" h="50 mm" w="40 mm" Type="UPOC" Rotate="0" ValidValue="[0-9]+"></élément> <élément Name="PostAdr1" Type="PostalAddress"ValidValue="[AdrLevel_City]"></élément> <Criteria Name="Criteria 1" Operation="AND" ElementName="Élément 1" RegEx="[a-z]+"></Criteria> <Criteria Name="Criteria 2" Operation="AND" ElementName="Élément 2" RegEx="[0-9]+"></Criteria> <Criteria Name="Criteria 3" Operation="OR" ElementName="Élément 3" RegEx="04[0-9]+"></Criteria> <Criteria Name="Criteria 3" Operation="AND" ElementName="PostAdr1" RegEx="[AdrLevel_City]"></Criteria> </ParserRule> <ParserRule Name="Rôle 2" Rotate="0, -30, -60, -90" Origin="top_left" Trim="Top"> <Elément Name="Élément 1" x="100 px" y="200 px" h="50 mm" w="40 mm" Type="Texte" Rotate="0, 90, 180, 270" ValidValue="[a-z]+"></élément> <Elément Name="Élément 2" x="200 px" y="400 px" h="50 mm" w="40 mm" Type="Code-barres" Rotate="0" ValidValue="[a-z]+"></élément> <Element Name="Élément 3" x="300 px" y="500 px" h="50 mm" w="40 mm" Type="UPOC" Rotate="0" ValidValue="[0-9]+"></élément> <Criteria Name="Criteria 1" Operation="AND" ElementName="Élément 1" RegEx="[a-z]+"></Criteria> <Criteria Name="Criteria 2" Operation="AND" ElementName="Élément 2" RegEx="[0-9]+"></Criteria> <Criteria Name="Criteria 3" Operation="OR" ElementName="Élément 3" RegEx="04[0-9]+"></Criteria> </ParserRule>
</ImageParser>Tags Le fichier de configuration XML est structuré comme suit :
ImageParser Contient 1 ou plusieurs balises de 'ParserRule'.
Attribut | Description |
---|
Nom | Nom de l'ImageParser | Timeout | Temps de traitement maximal en millisecondes. Lorsque le timeout est atteint, le traitement est interrompu et aucun résultat n'est renvoyé.Cet attribut est facultatif, la valeur par défaut est de 3500 ms et le timeout maximal autorisé est de 100000 ms. | Si le timeout est égal à 0 ou inférieur à 0, le timeout est mis à la valeur standard, s'il est supérieur à la valeur maximale autorisée, il est remis à la valeur maximale. | Reference | Référence au module/à la fonction qui utilise cet ImageParser. Si un ImageParser est utilisé dans plusieurs modules, les noms des modules sont séparés par une virgule. |
Les valeurs suivantes sont possibles :- R-SCAN
CxLetterScan en mode 'R-Scan' CxLetterScan en mode 'Maintenance' Module R-Scan - SCANNER
CxLetterScan en mode 'Scanner' - CAPTURE
CxLetterScan en mode 'Capture' - SORT
CxLetterScan en mode 'Sort' - DIGITAL
Numérisation
| Remark | Remarque sur ImageParser. |
Cet attribut est facultatif. | SafeMode | Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), l'ImageParser fonctionne en mode sans échec. Dans ce cas, un seul thread et diverses optimisations sont utilisés en interne pour une consommation minimale de la mémoire RAM. Si l'image à traiter est multicolore ou a une résolution supérieure à celle définie dans l'attribut SafeModeResolution, l'image est automatiquement convertie en une image en niveaux de gris de 8 bits avant l'analyse. ATTENTION ! N'utilisez cette option que si de très grandes images sont traitées ! | La durée de traitement augmente ainsi fortement (environ 5..10 fois), adaptez l'attribut Timeout en conséquence. | SafeModeResolution | Facultatif, plage de valeurs : 100..300 [DPI], par défaut : 200 [PDI]. N'est utilisé que si l'attribut SafeMode est activé. Définit la résolution d'image [DPI] utilisée en mode sans échec (voir ci-dessus). |
ParserRule Contient 1 ou plusieurs balises de 'Element' et 'Criteria 'Attribut | Description | Nom | Nom de la ParserRule | Rotate | Liste des angles avec lesquels la valeur doit être lue. | Les angles sont séparés par une virgule. Les angles augmentent dans le sens des aiguilles d'une montre de 0 à 360°. ATTENTION : chaque angle supplémentaire multiplie en outre le temps de traitement ! | Origine | de l'image. | Toutes les coordonnées se réfèrent à cette origine. Valeurs possibles : - top_left - top_right - bottom_left (default) - bottom_right Cet attribut est optionnel. | Trim | Optionnel. | Si cet attribut est défini, la partie correspondante de l'image qui est nettement plus sombre que le reste de l'image est coupée. Les valeurs possibles sont une combinaison des valeurs suivantes, séparées par une virgule : - Top - Bottom - Left - Right | FirstPage | Cet attribut n'est utilisé que si plusieurs documents sont traités en même temps, p. ex. dans la numérisation. Cette ParserRule est appliquée à partir de cette page. | Si la page à traiter est plus petite, la ParserRule est ignorée. | LastPage | Cet attribut n'est utilisé que si plusieurs documents sont traités en même temps, p. ex. dans la numérisation. Jusqu'à cette page, cette ParserRule est appliquée. |
Si la page à traiter est plus grande, la ParserRule est ignorée. |
Élément Décrit l'élément à analyser. Attribut | Description |
---|
Nom Nom | de l'élément, doit obligatoirement être présent ! CxLetterScan requiert obligatoirement certains éléments selon le mode (use-case). | Voir l'aide en ligne du mode correspondant. | Type Type | d'élément ; optionnel, valeur par défaut : texte. Les types suivants sont possibles : - texte: La section de l'élément est analysée par OCR et le texte reconnu est édité [*1]. - Code-barres: La section de l'élément est analysée à la recherche d'un code-barres [*1]. - UPOC: La section de l'élément est analysée à la recherche d'un code-barres et vérifie s'il s'agit d'un UPOC valable (type, mandant, ID, somme de contrôle) [*1]. - PostalAddress: La section de l'élément est analysée avec OCR et le tokenizer d'adresse et l'adresse reconnue est éditée [*2]. | Voir aussi Adresses postales. - Subject: le sujet est recherché dans l'extrait défini de l'élément (ligne de texte la plus marquante), voirSubject.
| OcrEngine | Facultatif, définit les moteurs OCR à utiliser. Contient un d Défaut (si non disponible ou vide) : - Pour les éléments Text, PostalAddress et Subject : Tesseract - Pour les éléments Barcode et UPOC : ByteScout Valeurs possibles : - Tesseract - CxOCRService - ByteScout Si le moteur CxOCRService est utilisé, les restrictions suivantes s'appliquent :
- Nécessite une licence LIC_F_CX_OCR_SERVICE_OCR - Si la licence n'est pas disponible ou si CxOCRService est désactivé, Tesseract est automatiquement utilisé - Ne peut être utilisé que pour des éléments de texte et PostalAddress (pas Subject/Barcode/UPOC) - | Aucun style ne peut être utilisé - Un seul angle doit être utilisé - Ne peut pas être utilisé pour les éléments relatifs (Parent/Child) - Pour plus d'informations, voir AdminDoc (#CxOCRService)
| OverwriteMode | Optionnel, Définit si/comment les données existantes d'un envoi sont écrasées. Défaut : NotEmpty La règle ne s'applique que si une valeur valide est lue par ImageParser pour l'attribut de l'envoi. Si aucune valeur ou une valeur vide est lue, la valeur originale de l'envoi n'est jamais écrasée. |
Valeurs possibles : - NotEmpty: n'écraser l'attribut d'envoi existant que si celui-ci est vide - Never: ne jamais écraser l'attribut d'envoi existant - Always: toujours écraser l'attribut d'envoi existant
| x | Coordonnée X du coin supérieur gauche de l'élément.
La coordonnée se réfère à l'origine de l'image. Une unité peut être indiquée en option, par défaut = px (pixels). Les unités suivantes sont possibles : - px: pixels (par défaut) - %: | Pourcentage, par rapport à l'image entière - mm: millimètres (uniquement si la résolution est connue) | y | Coordonnée Y du coin supérieur gauche de l'élément. La coordonnée se réfère à l'origine de l'image. Une unité peut être indiquée en option, par défaut = px (pixels). Les unités suivantes sont possibles : - px: pixels (par défaut) - %: | Pourcentage, par rapport à l'image entière - mm: millimètres (uniquement si la résolution est connue). | h | Hauteur de l'élément. Une unité peut être indiquée en option, par défaut = px (pixel). Les unités suivantes sont possibles : - px: pixel (par défaut) - %: | Pourcentage, par rapport à l'image entière - mm: millimètres (uniquement si la résolution est connue). | w | Largeur de l'élément. Une unité peut être indiquée en option, par défaut = px (pixels). Les unités suivantes sont possibles : - px: pixels (par défaut) - %: | Pourcentage, par rapport à l'image entière - mm: Millimètres (uniquement si la résolution est connue) | BarcodeType | Type de code-barres. Pertinent uniquement pour le type 'code-barres'. Plusieurs types de codes-barres peuvent être indiqués. Ceux-ci sont indiqués séparés par une virgule. Les types de codes-barres suivants sont possibles : - All (ou pas d'indication) : La recherche porte sur tous les types de codes-barres ci-dessous.
- All1D : La recherche porte sur tous les types de codes-barres 1D - All2D : On recherche tous les types de codes à barres 2D - AustralianPostCode - Aztec - Circular2of5 - Codabar - CodablockF - Code128 - Code16K - Code39 - Code39Extended - Code39Mod43 - Code39Mod43Extended - Code93 - DataMatrix - EAN13 - EAN2 - EAN5 - EAN8 - GS1 - GS1DataBarExpanded - GS1DataBarExpandedStacked - GS1DataBarLimited - GS1DataBarStacked - GS1DataBarOmnidirectionnel - GTIN12 (UPC-A avec 12 symboles) - GTIN13 (EAN-13) - GTIN14 (I2of5 avec 14 digits) - GTIN8 (EAN-8) - IntelligentMail - Interleaved2of5 - ITF14 (I2of5 avec 14 digits) - MaxiCode - MICR - MicroPDF - MSI - PatchCode - PDF417 - Pharmacode - PostNet - PZN - QRCode - RoyalMail - RoyalMailKIX - TriopticCode39 - UPCA - UPCE - UPU Cet attribut est facultatif, la valeur par défaut est 'All'. |
Rotate | Facultatif, par défaut = 0 (0°). Angle en degrés [°] dont l'élément doit être tourné pour être lisible horizontalement de gauche à droite . Les angles sont saisis séparés par une virgule. Les angles augmentent dans le sens des aiguilles d'une montre de 0 à 360°.
Les indications négatives sont autorisées, elles sont automatiquement converties en l'angle positif correspondant, par ex. -20° = + 340°. La rotation de l'élément se fait après la rotation de l'image complète (voir l'attribut Rotate de Tag ParserRule) et après la découpe de l'élément selon les attributs y,x,h, w.
ATTENTION: Chaque angle supplémentaire multiplie encore le temps de traitement ! Afin d'éviter des lectures erronées d'éléments de codes à barres et en particulier d'éléments UPOC, il est important que les angles possibles soient correctement définis. Le moteur OCR de codes à barres utilisé en interne supporte les angles de rotation discrets suivants : 0°, 11°, 22°, 45°, 90°, 135°, 158°, 169°, 180°, 191°, 202°, 225°, 270°, 315°, 338°, 349°. Les angles indiqués sont arrondis à l'angle le plus proche. Des indications d'angle supplémentaires sont impératives lorsque la torsion est supérieure à l'arc-tangente (tan-1) du rapport entre la hauteur du trait et la longueur du code à barres. Exemple : hauteur du trait = 10 mm, longueur totale = 50 mm. Ainsi : Arctan(10/50)=11,3°. | Donc : si le code-barres peut être tourné de plus de 11°, la valeur 11 doit être ajoutée comme angle de rotation.
| PreProcess | Optionnel, prétraitement de l'image pour la lecture OCR du code-barres, n'est disponible que pour le type Code-barres! Valeur par défaut : <vide> (pas de prétraitement) Les prétraitements suivants sont possibles : - BRectS: découpe de petites zones utilisées et traitement individuel. Améliore la lecture des codes à barres et des DataMatrix. Longue durée de traitement.
- BRectM: Découpe de zones d'utilisation moyenne et traitement unique. Améliore la lecture des codes à barres et DataMatrix. Durée de traitement moyenne.
- BRectL: Découpe de grandes zones utilisées et traitement unique. Améliore la lecture des codes à barres et des DataMatrix. | Temps de traitement court. | ValidValue | Expression RegEx qui définit une valeur valide de l'élément. L'élément n'a une valeur valable que si elle a été vérifiée selon l'expression RegEx. Dans le cas contraire, la valeur de l'élément est vide. A ne pas confondre avec 'RegEx' du critère.
Si l'attribut 'ValidValue' n'est pas indiqué ou est vide, les valeurs par défaut suivantes s'appliquent : - texte: "[0-9,a-z,A-Z]+" - code-barres: "[0-9,a-z,A-Z]+" - UPOC: <vide>, la valeur est vérifiée en vérifiant la syntaxe UPOC. |
Si un RegEx est indiqué, il est en outre évalué selon la syntaxe UPOC. | InvalidValue | Expression RegEx qui définit toutes les valeurs non valables d'un élément. L'élément ne peut contenir aucune de ces valeurs invalides, auquel cas l'élément est valide. | Si cet élément est saisi, il a la priorité sur l'élément "ValidValue". Si l'attribut 'InvalidValue' n'est pas indiqué ou est vide, la valeur par défaut reste vide et la règle pour 'ValidValue' est active. | OCRMinConfidence | Optionnel, par défaut = 0, disponible uniquement pour les types Text et PostalAddress. Cet attribut définit la qualité minimale (Confidence) que doit avoir au minimum le texte complet reconnu par la reconnaissance OCR pour la suite du traitement. Le paramètre global xxx est appliqué dans tous les cas pour chaque ligne individuelle ! Plage : 0% ... | 100% Les textes bien reconnus ont une Confidence >= 50%, les mauvais < 30%. | Prerequisite | Cet attribut n'est utilisé que lors de la numérisation. Il définit si la valeur de cet élément doit impérativement être présente pour achever la numérisation. | Si l'élément n'est pas trouvé, il faut impérativement procéder à un traitement ultérieur ou à une saisie manuelle. Les valeurs suivantes sont possibles : - Optional - Mandatory - None
| CFF-CF | Définit le nom du Custfields CFF (attributs d'envoi étendus) dans lequel la valeur déterminée de l'élément doit être enregistrée.
ATTENTION: seuls les Custfields CFF de type texte sont supportés ! - Saisissez le nom et le type ( texte fixe) du Custfields CFF - Si le Custfields CFF doit être affiché dans l'UI des modules de saisie, il doit être configuré en conséquence dans lesprestations. |
Ref | Facultatif, définit un élément relatif, voir éléments relatifs. Définit le nom de l'élément parent. | RefOrigin | Facultatif, définit le point de référence sur l'élément parent. Doit être défini en cas d'élément relatif. |
Valeurs possibles : - top_left - top_right - bottom_left (default) - bottom_right
| dx | Facultatif, définit la position X de l'élément relatif à partir de RefOrigin par rapport au parent | dy | Facultatif, définit la position Y de l'élément relatif à partir de RefOrigin par rapport au parent | Style | Facultatif, définit le style de l'élément.
Plusieurs valeurs sont possibles, séparées par une virgule (",").
Valeurs valables : - Normal: le texte n'est pas gras - Bold : le texte est gras - Larger: le texte est plus grand que l'élément référencé - Smaller: le texte est plus petit que l'élément référencé - Size : XX: le texte a exactement cette taille (en points)
Exemple : Style="Size:10,Bold" Restrictions : |
Non autorisé pour les éléments de type Barcode et UPOC Les valeurs Normal et Bold ne sont pas autorisées toutes les deux (exclusion mutuelle) Les valeurs Larger et Smaller ne sont pas autorisées toutes les deux (exclusion mutuelle) Les valeurs Larger ou Smaller ne sont autorisées que sur les éléments relatifs Les valeurs Larger ou Smaller sont autorisées si le parent n'est pas Barcode ou UPOC
| FontsizeDetMode | Optionnel ; définit comment la propriété Fontsize est calculée en fonction de la taille de la police de chaque mot.
Utilisé uniquement pour les éléments de type Subject et Text (si contenu dans Style Larger ou Smaller ou Size : XX ). Défaut : MajorityChars Valeurs possibles : - MajorityChars: | Fontsize de la majorité des caractères - MajorityWords: Fontsize de la majorité des mots - LargestWord: Fontsize du plus grand mot - SmallestWord: Fontsize du plus petit mot | BoldDetMode | Facultatif ; définit comment la propriété Bold est déterminée sur la base des mots individuels. Utilisé uniquement pour les éléments de type Subject et Text (s'ils sont contenus dans Style Normal ou Bold ).
|
Défaut : MajorityWords Valeurs possibles : - MajorityChars: la ligne est en gras si la majorité des caractères sont en gras - MajorityWords: la ligne est en gras si la majorité des mots sont en gras - AtLeastOneWord: la ligne est en gras si au moins un mot est en gras - AllWords: la ligne est en gras si tous les mots sont en gras |
[*1] : Si Type = Text, Barcode, UPOC , tous les attributs x,y,h,w doivent être définis ! [*2] : Si Type = PostalAddress , tous les attributs x,y,h,w ou aucun doivent être définis ! Criteria Décrit les critères qui doivent être remplis pour que cette ParserRule s'applique. Si les critères ne sont pas remplis, la ParserRule suivante est traitée. Ceci ne doit pas être confondu avec 'ValidValue' de l'élément ! Attribut | Description |
---|
Nom Nom | du critère | Opération | Indique comment le critère est lié logiquement. Valeurs possibles : 'AND', 'OR | 'ElementName | Nom de l'élément qui doit être vérifié. |
RegEx | Expression RegEx qui doit être remplie. Les éléments de type PostalAddress ne supportent AUCUN Critère, la validité est déterminée sur la base de règles internes ! |
Adresses postales Les éléments de type PostalAddress sont traités comme suit : Les attributs x, y, h, w sont facultatifs. S'ils ne sont pas indiqués (ou s'ils sont tous à 0), l'image entière est analysée à la recherche de blocs de texte. Si les attributs x, y, h, w sont définis, seule la partie définie est utilisée (comme pour le type d'élément "Texte"). Les blocs de texte trouvés sont triés selon certains critères et analysés avec OCR et SortTree.
La première/meilleure adresse reconnue est éditée. Si aucune valeur n'est définie pour ValidValue , tous les blocs d'adresses détectés sont retournés sous forme de chaîne, il n'y a PAS d'analyse avec SortTree ! Attributs spécifiques pour élément de type "PostalAddress" Les attributs suivants sont spécifiques aux éléments de type "PostalAddress".
ATTENTION : Les attributs CutLength/CutWidth et ExclusionZone* s'excluent mutuellement, seule une des deux variantes peut être utilisée ! Pour les nouvelles définitions, la zone d'exclusion doit être définie avec ExclusionZone*.
Attribut | Description |
---|
ValidValue | Les pseudo-régions suivantes (par défaut : <vide>) sont supportées : - <vide> (par défaut) - [AdrLevel_Country] - [AdrLevel_City] - [AdrLevel_Street] - [AdrLevel_House] - [AdrLevel_Name] | CutLength | Optionnel, par défaut = 0 (aucune zone d'exclusion).
Définit une zone d'exclusion en [mm] pour les blocs de texte détectés automatiquement (x,y,h,w = 0) sur les deux grands côtés de l'image. | Les blocs de texte détectés qui chevauchent cette zone sont ignorés. | CutWidth | Facultatif, par défaut = 0 (pas de zone d'exclusion). Définit une zone d'exclusion en [mm] pour les blocs de texte trouvés automatiquement (x,y,h,w = 0) sur les deux côtés courts de l'image. | Les blocs de texte détectés qui chevauchent cette zone sont ignorés. | ValidateAddress | Facultatif, plage de valeurs : 0/1, par défaut : 0 Définit comment les adresses trouvées sont vérifiées selon ValidValue. 0 : La vérification se fait par décomposition via Tokenizer et test de non vide (jusqu'au niveau défini par ValidValue ) 1 : La vérification se fait par rapport aux données territoriales de l'administration de district. | L'adresse doit être valable au moins jusqu'au niveau défini par ValidValue. | ExclusionZoneTop | Facultatif, si non disponible, le réglage par défaut est utilisé. Définit une zone d'exclusion au bord supérieur [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés. | ExclusionZoneBottom | Facultatif, si non disponible, le réglage par défaut est utilisé. |
Définit une zone d'exclusion en bas [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés. | ExclusionZoneLeft | En option, si elle n'existe pas, le réglage par défaut est utilisé. Définit une zone d'exclusion à gauche [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés. | ExclusionZoneRight | En option, si elle n'existe pas, le réglage par défaut est utilisé. |
Définit une "zone d'exclusion" sur la marge de droite [mm]. Les blocs de texte qui chevauchent cette zone sont ignorés. | DisableCodingZone | Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), les zones | d' | affranchissement | fixes définies en interne ne sont pas appliquées. | DisableFrankingZone | Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), les zones d'affranchissement fixes définies en interne ne sont pas appliquées. |
RefPointMode | Optionnel, par défaut = 0 (pas de zone d'exclusion). Les pseudo-réglages suivants (par défaut : <vide>) sont supportés : - AutoBasedFullImage - AutoBasedExclZone - ValueBasedExclZone
Si AutoBasedExclZone ou ValueBasedExclZone est défini, les attributs CutLength et CutWidthNE doiventPAS être définis. Les zones d'exclusion doivent être définies par ExclusionZone*.
Si ValueBasedExclZone est défini : |
-alors les deux attributs RefPointX et RefPointY doivent être définis - les attributs CutLength et CutWidth NE doivent PAS être définis - DisableCodingZone et DisableFrankingZone doivent être True
| RefPointX | Point de référence X-Coodinate en [mm], | [%] ou pixels (à partir de la gauche) Utilisé uniquement si RefPointMode = ValueBasedExclZone | RefPointY | Point de référence coodonnée Y en [mm], [%] ou pixels (à partir du haut) Utilisé uniquement si RefPointMode = ValueBasedExclZone | DoAddressSearch | TODO Facultatif, plage de valeurs : 0/1 (false/true), par défaut : 0 (false) Si 1 (true), l'image est toujours recherchée pour les adresses.
|
Forcer la recherche de l'adresse, exécuter TextBoxDetector même si la section de l'image est prédéfinie TODO : Conditions Vide/non disponible = automatiquement |
Éléments relatifs TODO Regex Les expressions Regex doivent être saisies selon la syntaxe DEELX Regular Expression . ATTENTION: Pour intégrer des expressions Regex dans des attributs XML, il faut éventuellement les échapper ! Utilisez pour cela un outil en ligne correspondant, par ex. Code Beautity. Groupes de capture nommés L'analyseur d'images supporte les groupes de capture nommés. Le nom du groupe doit être identique au nom de l'élément. Ex : (?<Subject>.*) Élément complet, y compris l'échappement : <Element Name="Subject" Type="Text" ValidValue="(?<Subject> ;.*)"> Single-/Multiline, Mode Modifier Ex : Pour ne matcher que la première ligne d'un texte de plusieurs lignes : ( ?-s).* Subject Le sujet est recherché dans la section définie de l'élément (ligne de texte la plus marquante). Un score est alors calculé pour chaque ligne de texte lue, la ligne avec le score le plus élevé contient le sujet.
Formule pour le calcul du score de la ligne : LineScore = (BlockScore * OwnBlockFactor) + (ParagraphScore * OwnParaFactor) + (BoldScore * BoldFactor) + (FontsizeScore * FontsizeFactor) + (PositionScore * PositionFactor) + (KeywordScore * KeywordFactor) Les attributs suivants sont spécifiques aux éléments du type Subject.
Attribut | Description | Valeur par défaut |
---|
LinePosDetMode | Facultatif ; définit le point de référence utilisé pour calculer le PositionScore (par rapport au centre de l'image découpée). Valeurs possibles : - LineCenter: | Centre/centre de la ligne - ShortestCorner: distance la plus courte d'un coin de la ligne | LineCenter | Keywords | Facultatif ; définit des mots-clés pour reconnaître le sujet. Saisissez une liste de mots-clés, séparés par une virgule. |
<lean>KeywordFactor | Optionnel ; définit le facteur de mot-clé pour le calcul du score de la ligne. | 1.0 | OwnBlockFactor | Optionnel ; définit le facteur OwnBlock pour le calcul du score de la ligne.. | 0.0 | OwnParaFactor | Optionnel ; définit le facteur OwnParagraph pour le calcul du score de la ligne. | 0.05 | BoldFactor | Optionnel ; définit le facteur Bold pour le calcul du score de ligne. Voir aussi l'élément Attribut BoldDetMode | 0.40 | FontsizeFactor | Optionnel ; définit le facteur Fontsize pour le calcul du score de ligne. Voir aussi l'élément Attribut FontsizeDetMode | 0.40 | PositionFactor | Optionnel ; définit le facteur de position pour le calcul du score de ligne. | 0.30 | MinLength | Optionnel ; définit la longueur minimale d'une ligne. | 4 | MaxLength | Optionnel ; définit la longueur maximale d'une ligne. | 0 (pas de longueur maximale) | Fonctionnement
Vous trouverez le fonctionnement et des informations complémentaires dans l'AdminDoc (recherchez 'ImageParser').
Voir aussi
|