Use Case

Positive Wirkung auf Geschäftsprozesse durch korrektes Data Matching

Data Matching und Deduplizierung stellen viele Unternehmen vor Probleme. Die Identifizierung von Kunden mit mehreren Konten kann z.B. für die Risiko- und Betrugsabteilungen von Finanzinstituten von entscheidender Bedeutung sein. Ebenso kann das Zusammenführen interner Daten mit externen Quellen die Grundlage für die Entwicklung neuer Datenprodukte sein, weshalb es entscheidend ist, Analytics- und Data-Science-Projekte zu verbessern. Richtig durchgeführt, hat Data Matching ein sehr grosses Potenzial und wirkt sich positiv auf alle nachgelagerten Prozesse (Business & Technologie) aus.

Scigility hat in vielen Branchen, die fortschrittliche und auf grosse Datensätze skalierbare ML-Techniken verwenden, Deduplizierungs- und Data-Matching-Lösungen implementiert.

Herausforderung

Data Matching und Deduplizierung erfordern sorgfältige Planung und ein gutes Geschäftsverständnis. Bei der Umsetzung dieser Use Cases berücksichtigen wir bei Scigility auf Basis unserer Frameworks folgende Punkte:

  • Planen der Schritte im Data-Engineering-Prozess. Wie gross sind die Daten? Wie oft werden sie aktualisiert? Müssen die Daten bereinigt und vorverarbeitet werden?
  • Verstehen, was der Businessbereich des Kunden als «Match» erachtet. Sind gelabelte Datensätze verfügbar? Wie hoch sind die Kosten für das Sammeln zuverlässig gelabelter Daten?
  • Wie wird der Output der Use-Case-Anwendung verwendet? Ist es wichtiger, so viele Datensätze wie möglich abzugleichen oder sollen nur eindeutige Duplikate abgeglichen und Grenzfälle vermieden werden?

Data Matching und Deduplication haben erhebliche Auswirkungen auf viele Unternehmensbereiche. Es ist entscheidend, Stakeholder während des gesamten Entwicklungsprozesses einzubeziehen und eine Pipeline zu entwickeln, die skalierbar ist und zuverlässige Daten liefert.

Lösung

Scigility unterstützt und ermöglicht Data Science und Data Engineering durch:

  • das Erstellen skalierbarer und verteilter Datenpipelines unter Anwendung von Lösungen wie Apache Spark oder Dask.
  • einen datenzentrierten Ansatz zur Modellentwicklung, der den Geschäftsanforderungen entspricht. Das Labeln der Daten ist ein zeitaufwändiger, aber äusserst wichtiger Prozess. Unsere aktiven Lernansätze verkürzen die zum Erstellen neuer Labels benötigte Zeit und verbessern das ML-Modell erheblich.
  • die Bereitstellung und den Betrieb des Modells (Überwachung, Versionierung, Validierung usw.) mit MLOps-Tools wie MLflow

Used Methodology

Scigility MLOps & AI Industrialization
Scigility Data Driven Enablement
Scigility Use Cases Accelerator
Mehr über das Scigility Framework erfahren

Used Technology

Spark oder Dask für Distributed Analysis
AzureML, AWS Sagemaker, Databricks, MLflow für MLOps
Mehr über unsere Technologien erfahren

Wir freuen uns auf Sie.

Sie haben Fragen zu einem Case, wünschen eine Offerte und möchten uns gerne kennenlernen?

Oder bist du ein Data-Scientist, eine grossartige Coderin oder eine passionierte Ingenieurin und auf der Suche nach einem genialen Team sowie coolen Herausforderungen?

Ganz egal, was es ist – wir sind für Sie da.

Christof Studer
Business Developer
+41 44 214 62 89 sales@scigility.com
Federica Suardi
Recruiting
+41 44 214 62 89 jobs@scigility.com
Christian Gügi
Principal Engineer
+41 44 214 62 89 devs@scigility.com