|
Beim Zusammenführen von Datenbeständen aus unterschiedlichen Systemen entstehen
doppelte Datensätze, die sich nur schwer automatisiert finden lassen. Die Fuzzy
Grouping und Fuzzy Lookup Komponenten der SQL Server Integration Services bieten
hier einen Ansatz, jedoch erst in der SQL Server Enterprise Edition. Andere auf
dem Markt verfügbare Lösungen sind häufig mit Performanceeinbußen verbunden oder
durch zusätzliche Export-Import-Schritte nur schwer oder gar nicht automatisierbar.
Mit datenfabrik.dedupe bieten wir eine Datenflusskomponente zur Deduplizierung
von Datenbeständen für die SQL Server Integration Services an. Dabei ist datenfabrik.dedupe
optimiert für das Suchen von mehrfach vorhandenen Datensätzen in Adressbeständen
und bietet einen hohen Optimierungsgrad zwischen Treffergenauigkeit und Performance,
selbst für den Abgleich größerer Datenmengen von bis zu 5.000.000 Datensätzen benötigt
datenfabrik.dedupe weniger als eine Stunde.
Funktionsübersicht
- Suche über Sorted Neighbourhood
- Suche mit phonetischen Suchalgorithmen
- Definition von Sortierschlüsseln und Suchumgebungen
- verschiedene Sets von Suchparametern
- Minimaler Trefferscore pro Datenspalte zur Identifizierung als Dublette
- Minimaler Trefferscore pro Parameterset zur Identifizierung als Dublette
- Priorisieren von Datenspalten zur Gewichtung innerhalb des Trefferscore
- Bewertung leerer Spalten zur Gewichtung innerhalb des Trefferscore
- Speichern/Laden von Parametersets
- Sperrung von Datensätzen innerhalb der Suche, um Vergleiche gegeneinander zu unterbinden
(z.B. bei Sanktionslisten, Robinsonlisten oder bestehenden sauberen Daten)
|