Ermittlung Empfänger in MS-/OS-IHS

Bei der Erfassung von Sendungen im inhouse-Bereich muss der korrekte Empfänger anhand von wenigen teilweise fehlerbehafteten oder unvollständigen Eingaben erkannt, bzw. ausgewählt werden. In CodX PostOffice erfolgt die Eingabe bzw. das Einlesen der Adresse die Module MS-IHS bzw. OS-IHS.

Hier werden die einzelnen Schritte zum Erkennen des korrekten Empfängers beschrieben. Die Bedienung der beiden Module MS-IHS und OS-IHS ist in den entsprechenden Online-Hilfe beschrieben.

Laden des IHS-Caches

Der IHS-Cache ist ein interner Speicher, welcher alle Empfängerdaten speichert. Die Empfängerdaten werden in sogenannte Keywords unterteilt. Die Keywords sind einzelne Wörter, welche in Namen, Vornamen, Abteilungsnamen usw. vorkommen. Die Keywords werden in einer riesigen Liste zusammen mit anderen Informationen gespeichert.

Das Laden des IHS-Caches erfolgt beim Start von CodX PostOfffice und kann je nach Grösse der Datenbank einige Minuten in Anspruch nehmen.

Erfassen einer Sendung

Bei der Erfassung einer Sendung werden die untenstehenden Prozesse durchgeführt:

Bildung von Token

Wird eine Sendung mit MS-IHS oder OS-IHS eingelesen, so wird die Eingabe entsprechend verarbeitet.

Die Eingabe bzw. das Eingelesene wird als erstes in einzelne Wörter (Tokens) unterteilt. Dabei werden alle Wörter, welche mit Space oder sonst einem Separator getrennt sind, geteilt.

Beispiel:

Adresse:
CodX Software AG
Sinserstrasse 47
6330 Cham

Token: CodX, Software, AG, Sinserstrasse, 47, 6330 Cham

Die einzelnen Tokens werden ab diesem Zeitpunkt alle gleich behandelt. Zu diesem Zeitpunkt hat CodX PostOffice keine Information, welche Token welchen Inhalt darstellt.

Filtern der Tokens mit der Blacklist

In einem zweiten Schritt werden die Tokens mit den Wörtern in der Blacklist verglichen. Die Blacklist ist eine Liste von Wörtern, welche für die Suche des Empfängers nicht berücksichtigt werden sollen.

Der Vergleich der Blacklist erfolgt mit einer Änlichkeitssuche. Für jedes Wort in der Blacklist kann ein entsprechender Fehlerfaktor angegeben werden. Je höher der Fehlerfaktor ist, dessto eher wird ein Token verworfen und nicht in die untenstehende Suche mit aufgenommen. Dieser Fehlerfaktor muss also entsprechend eingestellt werden.

Suchen und gewichten von Tokens in der Keyword-Liste

Im nächsten Schritt wird mit jedem Token die komplette Keyword-Liste durchsucht. Dabei findet auch eine Änlichkeitssuche statt, wobei der Fehlerfaktor pro Keyword-Gruppe auch eingestellt werden kann.

Das Resultat dieser Ähnlichkeitssuche ist ein Qualitätsfaktor für jedes Keyword zwischen 0 und 100%. Dieser Qualitätsfaktor sagt aus, wie gut das Token auf das Keyword passt.

Alle Keywords, welche einen zu kleinen Qualitätsfaktor aufweisen, werden verworfen. Diese kommen für die Auswahl des Empfängers nicht mehr infrage.

Die verbleibenden gefundenen Keywords werden schliessend mit der eingestellten Gewichtung multipliziert. Daraus ergibt sich der Score des Keywords.

Pro Entität (Person, Logistikeinheit, Kostenträger) wird ein gefundenes Keyword nur einmal berücksichtigt, dabei wird dasjenige mit dem höchsten Score verwendet.
Beispiel: Bei einer Person, bei der das Keyword "Peter" im Vornamen (Gewichtung 30) und im Nachnamen (Gewichtung 40) vorkommt, wird nur der Treffer auf dem Nachnamen verwendet.

Zusammenführen der Keywords

Da sich hinter jedem gefundenen Keyword ein oder mehrere Empfänger (Person, Kunde, Kostenstelle, Logistikeinheit) befinden kann, werden diese nun zusammengefasst.

Mit den gewichteten Keywords wird nun mit einer speziellen Formel ein Qualitätsfaktor (FullScore) für jeden Empfänger berechnet.

Nun werden alle Empfänger aus der verbleibenden Liste entfernt, bei welchen der FullScore zu niedrig ist. Übrig bleiben die besten Kandidaten.

Dies ist nun das Ergebnis der gefundenen Empfänger, welches in der Liste von MS-IHS bzw. OS-IHS angezeigt werden.

Keyword-Gruppen

Die einzelnen Keywords werden in Gruppen zusammengefasst. Die untenstehende Liste zeigt die Keywords an, nach welchen gesucht werden kann und deren Gruppe.

Entität	Attribut	Gruppe
Person	Nummer	Person Number
Person	Externe Personalnummer	Person Number
Person	UPOC	Person UPOC
Person	Name	Person Surname
Person	Vorname	Person Firstname
Person	Name 3	Person Name Suffix
Person	Name alt	Person Surname
Person	Vorname alt	Person Firstname
Person	Name 3 alt	Person Name Suffix
Person	Alias	Person Keywords
Person	Position	Person Position
Person	Erweiterte Attribute	Person Extended Attributes
Kunde	Name 1	Customer Attributes
Kunde	Name 2	Customer Attributes
Kunde	Name 3	Customer Attributes
Kunde	Alias	Customer Attributes
Kostenstelle	Name 1	Costcenter Attributes
Kostenstelle	Name 2	Costcenter Attributes
Kostenstelle	Name 3	Costcenter Attributes
Kostenstelle	Name 1 alt	Costcenter Attributes
Kostenstelle	Name 2 alt	Costcenter Attributes
Kostenstelle	Name 3 alt	Costcenter Attributes
Kostenstelle	Alias	Costcenter Attributes
Logistikeinheit	Name	Logistic Unit Attributes
Logistikeinheit	Alias	Logistic Unit Attributes
Logistikeinheit	Hausnummer	Logistic Unit Attributes
Logistikeinheit	Strasse	Logistic Unit Attributes
Logistikeinheit	Postleitzahl	Logistic Unit Attributes
Logistikeinheit	Ort	Logistic Unit Attributes

CodX Software AG
Sinserstrasse 47
6330 Cham
Switzerland

Support
http://support.codx.ch