Ermittlung Empfänger in MS-/OS-IHS

Bei der Erfassung von Sendungen im inhouse-Bereich muss der korrekte Empfänger anhand von wenigen teilweise fehlerbehafteten oder unvollständigen Eingaben erkannt, bzw. ausgewählt werden. In CodX PostOffice erfolgt die Eingabe bzw. das Einlesen der Adresse die Module MS-IHS bzw. OS-IHS.

Hier werden die einzelnen Schritte zum Erkennen des korrekten Empfängers beschrieben. Die Bedienung der beiden Module MS-IHS und OS-IHS ist in den entsprechenden Online-Hilfe beschrieben.

Laden des IHS-Caches

Der IHS-Cache ist ein interner Speicher, welcher alle Empfängerdaten speichert. Die Empfängerdaten werden in sogenannte Keywords unterteilt. Die Keywords sind einzelne Wörter, welche in Namen, Vornamen, Abteilungsnamen usw. vorkommen. Die Keywords werden in einer riesigen Liste zusammen mit anderen Informationen gespeichert.

Das Laden des IHS-Caches erfolgt beim Start von CodX PostOfffice und kann je nach Grösse der Datenbank einige Minuten in Anspruch nehmen.

Erfassen einer Sendung

Bei der Erfassung einer Sendung werden die untenstehenden Prozesse durchgeführt:

Bildung von Token

Wird eine Sendung mit MS-IHS oder OS-IHS eingelesen, so wird die Eingabe entsprechend verarbeitet.

Die Eingabe bzw. das Eingelesene wird als erstes in einzelne Wörter (Tokens) unterteilt. Dabei werden alle Wörter, welche mit Space oder sonst einem Separator getrennt sind, geteilt.

Beispiel:

Adresse:
CodX Software AG
Sinserstrasse 47
6330 Cham

Token: CodX, Software, AG, Sinserstrasse, 47, 6330 Cham

Die einzelnen Tokens werden ab diesem Zeitpunkt alle gleich behandelt. Zu diesem Zeitpunkt hat CodX PostOffice keine Information, welche Token welchen Inhalt darstellt.

Filtern der Tokens mit der Blacklist

In einem zweiten Schritt werden die Tokens mit den Wörtern in der Blacklist verglichen. Die Blacklist ist eine Liste von Wörtern, welche für die Suche des Empfängers nicht berücksichtigt werden sollen.

Der Vergleich der Blacklist erfolgt mit einer Änlichkeitssuche. Für jedes Wort in der Blacklist kann ein entsprechender Fehlerfaktor angegeben werden. Je höher der Fehlerfaktor ist, dessto eher wird ein Token verworfen und nicht in die untenstehende Suche mit aufgenommen. Dieser Fehlerfaktor muss also entsprechend eingestellt werden.

Suchen und gewichten von Tokens in der Keyword-Liste

Im nächsten Schritt wird mit jedem Token die komplette Keyword-Liste durchsucht. Dabei findet auch eine Änlichkeitssuche statt, wobei der Fehlerfaktor pro Keyword-Gruppe auch eingestellt werden kann.

Das Resultat dieser Ähnlichkeitssuche ist ein Qualitätsfaktor für jedes Keyword zwischen 0 und 100%. Dieser Qualitätsfaktor sagt aus, wie gut das Token auf das Keyword passt.

Alle Keywords, welche einen zu kleinen Qualitätsfaktor aufweisen, werden verworfen. Diese kommen für die Auswahl des Empfängers nicht mehr infrage.

Die verbleibenden gefundenen Keywords werden schliessend mit der eingestellten Gewichtung multipliziert. Daraus ergibt sich der Score des Keywords.

Pro Entität (Person, Logistikeinheit, Kostenträger) wird ein gefundenes Keyword nur einmal berücksichtigt, dabei wird dasjenige mit dem höchsten Score verwendet.
Beispiel: Bei einer Person, bei der das Keyword "Peter" im Vornamen (Gewichtung 30) und im Nachnamen (Gewichtung 40) vorkommt, wird nur der Treffer auf dem Nachnamen verwendet.

Zusammenführen der Keywords

Da sich hinter jedem gefundenen Keyword ein oder mehrere Empfänger (Person, Kunde, Kostenstelle, Logistikeinheit) befinden kann, werden diese nun zusammengefasst.

Mit den gewichteten Keywords wird nun mit einer speziellen Formel ein Qualitätsfaktor (FullScore) für jeden Empfänger berechnet.

Nun werden alle Empfänger aus der verbleibenden Liste entfernt, bei welchen der FullScore zu niedrig ist. Übrig bleiben die besten Kandidaten.

Dies ist nun das Ergebnis der gefundenen Empfänger, welches in der Liste von MS-IHS bzw. OS-IHS angezeigt werden.

Keyword-Gruppen

Die einzelnen Keywords werden in Gruppen zusammengefasst. Die untenstehende Liste zeigt die Keywords an, nach welchen gesucht werden kann und deren Gruppe.

Entität Attribut Gruppe
Person Nummer Person Number
Person Externe Personalnummer Person Number
Person UPOC Person UPOC
Person Name Person Surname
Person Vorname Person Firstname
Person Name 3 Person Name Suffix
Person Name alt Person Surname
Person Vorname alt Person Firstname
Person Name 3 alt Person Name Suffix
Person Alias Person Keywords
Person Position Person Position
Person Erweiterte Attribute Person Extended Attributes
Kunde Name 1 Customer Attributes
Kunde Name 2 Customer Attributes
Kunde Name 3 Customer Attributes
Kunde Alias Customer Attributes
Kostenstelle Name 1 Costcenter Attributes
Kostenstelle Name 2 Costcenter Attributes
Kostenstelle Name 3 Costcenter Attributes
Kostenstelle Name 1 alt Costcenter Attributes
Kostenstelle Name 2 alt Costcenter Attributes
Kostenstelle Name 3 alt Costcenter Attributes
Kostenstelle Alias Costcenter Attributes
Logistikeinheit Name Logistic Unit Attributes
Logistikeinheit Alias Logistic Unit Attributes
Logistikeinheit Hausnummer Logistic Unit Attributes
Logistikeinheit Strasse Logistic Unit Attributes
Logistikeinheit Postleitzahl Logistic Unit Attributes
Logistikeinheit Ort Logistic Unit Attributes


CodX Software CodX Software AG
Sinserstrasse 47
6330 Cham
Switzerland
Support
http://support.codx.ch
CxSpickel