Use Case

Text und unstrukturierte Content Classification mit Natural Language Processing

Text in Dokumenten wie Berichten, Jahresabschlüssen oder Rechnungen kann sehr informationsreich sein. Das Extrahieren von Inhalten aus diesen Quellen erfolgt häufig manuell und ist oft zeitintensiv, da Textdaten unstrukturiert sind. Scigilitys Know-how in NLP und maschinellem Lernen sowie in der Analyse und Strukturierung von Text unterstützt Unternehmen bei der Automatisierung ihrer manuellen Prozesse, bei der Gewinnung von Erkenntnissen und der sinnvollen Nutzung grosser Datenmengen.

Herausforderung

Die Textklassifikation ordnet Dokumente einer passenden Kategorie zu. Diese Kategorien stellen die Kunden-Sentiment oder Themenbereiche im Zusammenhang mit Kundenfragen und -wünschen dar. Die Eingabedaten können sehr vielfältig sein und verschiedene Formate wie PDF-Dokumente, Kunden-E-Mails oder Chatbot-Nachrichten umfassen. Scigility berücksichtigt bei der Ausführung von NLP-Use-Cases zur Textklassifizierung auf Basis unserer Frameworks folgende Punkte:

  • Das Sammeln unstrukturierter Daten mit Textinhalt ist relativ einfach, aber die grösste Herausforderung besteht darin, die Datenelemente den richtigen Labels zuzuweisen und ein qualitativ hochwertiges Training-Sample zu erstellen.
  • Reale Textdaten und gescannte Dokumente enthalten verschiedene unstrukturierte Elemente (Tabellen, Hyperlinks, Bilder usw.), die das Einrichten mehrerer Vorverarbeitungspipelines erfordern.
  • Viele gängige ML-Sprachmodelle sind für ein grosses Anwendungsfeld vortrainiert, aber sie benötigen auch eine Feinabstimmung auf geschäfts- und domänenspezifischen Text, um eine gute Performance zu erreichen und aufrechtzuerhalten.

 

Lösung

Scigility legt besonderen Wert auf die Erstellung qualitativ hochwertiger Training-Samples für NLP-Use-Cases.

  • Wir verwenden Lösungen wie Label Studio und Prodigy, mit denen die manuellen Labeling- und Tagging-Aufgaben automatisiert und durch Pre-Labeling effizienter gestaltet werden können.
  • Wir arbeiten mit der beliebten BERT-NLP-Modellen und verwenden eine Vielzahl vortrainierter Modelle, die in Model Stores wie Hugging Face, spaCy oder fastText erhältlich sind.

Used Methodology

Scigility Modern Data & AI Architecture
Scigility Data Driven Enablement
Scigility Use Cases Accelerator
Scigility MLOps & AI Industrialization
Mehr über das Scigility Framework erfahren

Used Technology

Label Studio, Prodigy für die Automatisierung von Labeling und Tagging
BERT NLP und Pretrained Models wie Hugging Face, spaCy oder fastText
AzureML, AWS Sagemaker, Databricks, MLflow für MLOp
Mehr über unsere Technologien erfahren

Wir freuen uns auf Sie.

Sie haben Fragen zu einem Case, wünschen eine Offerte und möchten uns gerne kennenlernen?

Oder bist du ein Data-Scientist, eine grossartige Coderin oder eine passionierte Ingenieurin und auf der Suche nach einem genialen Team sowie coolen Herausforderungen?

Ganz egal, was es ist – wir sind für Sie da.

Christof Studer
Business Developer
+41 44 214 62 89 sales@scigility.com
Federica Suardi
Recruiting
+41 44 214 62 89 jobs@scigility.com
Christian Gügi
Principal Engineer
+41 44 214 62 89 devs@scigility.com