Regeltypen in datenfabrik.profiler
Der datenfabrik.profiler verfügt bereits im Auslieferungszustand über eine Vielzahl an verschiedenen Regeln, anhand welcher die Daten aus dem Datenfluss überprüft werden können. Einige dieser Regeln können dabei vom Anwender erweitert werden.
Teilweise überschneidet sich ein Teil der Regeln in ihrem jeweiligen Funktionsumfang. Abhängig davon, welche Regel für welchen Zweck verwendet wird, sind die Resultate für spezifische Analysen jedoch wesentlich detaillierter. Die Ausgangsdaten und die Ergebnisse des Profilings werden daraufhin ins Repository des datenfabrik.profiler geschrieben.
Um mehr über die Regeln und deren Funktion zu erfahren, klicken Sie auf die einzelnen Icons.
Regeln im datenfabrik.profiler

Column Values
Die Regel Column Values zählt die in einer Spalte vorkommenden Werte und bereitet die Verteilung dieser statistisch auf.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Data Type Conversion
VERFÜGBAR
Die Regel
Data Type Conversion überprüft, ob die Inhalte in den ausgewählten Spalten in einen SQL Server 2005/2008-Datentyp umgewandelt werden können.
Die Regel ist ab sofort in der Version 1.0.5.1 verfügbar.
>> Data Type Conversion 1.0.5.1

Date Mask
VERFÜGBAR
Die Regel
Date Mask überprüft die Spaltenwerte auf Datumsangaben anhand von vordefinierten, gängigen Datumsformaten (z.B. „yyyy-mm-dd“, „dd.mm.yyyy“ oder „mm/dd/yy“).
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> Date Mask 1.0.5.1

Doublemetaphone Frequency Table
Die Regel Doublemetaphone Frequency führt in den zu überprüfenden Spalten einen phonetischen Vergleich durch, wodurch gleichlautende Werte ermittelt und zusammengefasst werden können.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Historical Data
VERFÜGBAR
Die Regel
Historical Data wendet unterschiedliche Aggregat-Funktionen, wie z.B. Summe, Anzahl oder Durchschnittswert auf zu analysierende Spalten an. Die daraus resultierenden Ergebnisse werden aus einer frei zu definierenden Datumsspalte im Hinblick auf ihren zeitlichen Verlauf dargestellt.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> Historical Data 1.0.5.1

Key Candidate Profile
Die Regel Key Candidate Profile ermittelt pro Spalte eindeutig vorkommende Werte und erstellt gemäß der Ergebnisse eine Prognose, welche Spalte als Schlüsselspalte verwendet werden kann. In diesem Zusammenhang werden aus den ausgewählten Spalten des Eingabedatenstroms die Spalten als mögliche Schlüsselspalte gekennzeichnet, deren eindeutige Werte einem frei definierbarem Schwellenwert entsprechen. Die Voreinstellung liegt hier bei mindestens 95 Prozent eindeutiger Werte. Diese Regel wird dabei automatisch auf alle zur Verfügung stehenden Spalten angewendet.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Knowledge Base
Die Regel Knowledge Base beinhaltet eine Vielzahl von verschiedenen, vordefinierten Referenztabellen, die für die Validierung der Eingabedaten verwendet werden können.
Die Regel kann um beliebig viele benutzerspezifische Knowledge Bases erweitert werden: Neben Dateien mit länderspezifischen Referenzdaten, welche eine Validierung von geographischen und administrativen Einheiten in den zu überprüfenden Daten ermöglichen, können z.B. Knowledge Bases mit Bankleitzahlen, RAL-Farben oder Vorwahlen aus Text- oder .csv-Dateien importiert werden. Somit ist es möglich, die für Ihren Zweck erforderlichen Daten als Knowledge Base einzulesen.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Length Distribution
Die Regel Length Distribution überprüft Daten aus dem Eingabedatenstrom auf ihre jeweilige Zeichenlänge und bereitet die Verteilung der vorkommenden Zeichenlängen statistisch auf. Daraufhin wird eine Statistik mit der genauen Anzahl aller in den zu überprüfenden Daten vorkommenden Zeichenlängen erstellt.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Null Values
Mit der Regel Null Values können die zu überprüfenden Daten auf das Vorhandensein von Nullwerten überprüft werden. Über verschiedene Einstellungen können darüber hinaus Leerstrings bzw. leere Spalteninhalte in den zu überprüfenden Daten als Nullwerte behandelt und so in die Überprüfung mit einbezogen werden.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Number Analysis
Die Regel Number Analysis versucht für die zu überprüfenden Spalten eine numerische Analyse anhand verschiedener mathematischer Berechnungen, wie etwa Summe, Mittelwert, Modus, Median, Standardabweichung etc., vorzunehmen.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Pattern Analysis
Die Regel Pattern Analysis identifiziert zu einzelnen Werten einer Spalte gemeinsame Pattern-Muster, um so Ähnlichkeiten von einzelnen Werten in Form von Spaltenmusterprofilen dokumentieren zu können. Für jede einzelne Spalte aus dem Eingabedatenstrom können mehrere gemeinsame Pattern-Muster erstellt werden: Dabei werden alle identifizierten Pattern-Muster mit ausgegeben.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Regular Expressions
Die Regel Regular Expressions ermöglicht eine Validierung von Daten anhand zahlreicher vordefinierter regulärer Ausdrücke (u.a. Postleitzahlen, Telefonnummern, URLs, E-Mail-Adressen, EAN Codes), die vom Benutzer beliebig erweitert werden können.
Der Anwender kann dabei pro Spalte mehrere reguläre Ausdrücke für die Überprüfung auswählen, wobei für jeden einzelnen regulären Ausdruck eine eigenständige Validierung durchgeführt und eine eigene statistische Auswertung erstellt wird.
Die Regel ist in der Version 1.0.5.1 vorinstalliert.

Spell Checker
VERFÜGBAR
Die Regel
Spell Checker führt für zuvor ausgewählte Textfelder innerhalb des Eingabedatenstroms eine Rechtschreibprüfung durch. Hierbei können alle Sprachen geprüft werden, für die Wörterbücher installiert werden, wobei Open Source Lexika für alle gängigen Sprachen zur Verfügung stehen. Auf diese Weise kann eine orthografisch korrekte und einheitliche Schreibweise der Einträge gewährleistet werden.
Wörterbücher für die Regel Spell Checker können unter
Add-Ons heruntergeladen werden.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> Spell Checker (x64) 1.0.5.1
>> Spell Checker (x86) 1.0.5.1

State Duration
VERFÜGBAR
Mit der Regel
State Duration kann der Abstand zweier Datumswerte aus verschiedenen Spalten geprüft werden. Dieser Abstand kann in Tagen, Wochen, Monaten oder Jahren ausgegeben werden.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> State Duration 1.0.5.1

String Analysis
VERFÜGBAR
Über die Regel
String Analysis werden in den für die Überprüfung ausgewählten Spalten die Werte mit Standard String-Funktionen wie z.B.
Character Count,
Numeric/Non-Numeric und
Word Count überprüft.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> String Analysis 1.0.5.1

Time Analysis
VERFÜGBAR
Mit Hilfe der Regel
Time Analysis kann eine Analyse vorgenommen werden, inwiefern Werte in Datumsspalten auf spezifische Datumswerte wie Jahre, Jahre.Monate, Jahre.Quartale, Quartale oder Monate verteilt sind.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> Time Analysis 1.0.5.1

Time Gap
VERFÜGBAR
Die Regel
Time Gap untersucht zwei Datumsspalten innerhalb einer Tabelle mit einem Anfangs- und einem Enddatum hinsichtlich der Vollständigkeit der Daten. Sie deckt auf, ob in dem untersuchten Zeitintervall Lücken bestehen.
>> Time Gap 1.0.5.1

Value Range
VERFÜGBAR
Mit Hilfe der Regel
Value Range können beliebige numerische Intervalle definiert und die Verteilung der Daten innerhalb dieser überprüft werden.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> Value Range 1.0.5.1

Weekday
VERFÜGBAR
Anhand der Regel
Weekday können in Datumsspalten hinterlegte Werte analysiert und so deren Verteilung auf bestimmte Wochentage bestimmt werden.
Die Regel ist ab sofort in der Version 1.0.5.1 zum Download verfügbar.
>> Weekday 1.0.5.1
Quick Guide: datenfabrik.profiler Rules
Für mehr Informationen zur Installation der zusätzlichen Regeln können Sie hier einen Quick Guide mit Anleitungen und Tipps zum Hinzufügen neuer Regeln herunterladen (zum Betrachten ist der
Adobe Reader oder ein anderer PDF-Viewer erforderlich). Für weitere Fragen und Anmerkungen sowie bei Problemen kontaktieren Sie bitte unseren Kundendienst unter
support@datenfabrik.com.