In fünf Schritten zur Datenqualität für eine erfolgreiche Datenanalyse

Eine hohe Datenqualität gilt heute als notwendige Bedingung für erfolgreiche statistische Datenanalysen und Machine Learning. Im Produktionskontext existiert eine Vielzahl von Daten, die aus unterschiedlichen Quellen wie Sensoren einer Werkzeugmaschine, Messgeräten oder manuellen Einträgen stammen. Solche Rohdaten liegen zunächst nicht in einem direkt verwertbaren Zustand vor und können darüber hinaus Fehlstellen bei Sensorausfall oder falsche Angaben bei manuellen Einträgen aufweisen.

Eine strukturierte Vorverarbeitung der Daten in methodischen Schritten

Um Daten in einen verwertbaren Zustand zu überführen und eine höchstmögliche Datenqualität für nachfolgende Analysen sicherzustellen, hat das Fraunhofer IPT eine Pipeline für ein standardisiertes Data Preprocessing in fünf Schritten entwickelt.

Als Ergebnis des Data Preprocessing liegt ein aufbereiteter Datensatz vor, der für statistische Datenanalysen und Machine Learning genutzt werden kann. Durch die aktuellen Entwicklungen des Automated Machine Learning wird intensiv an der Automatisierung der Datenvorverarbeitung gearbeitet. Das Fraunhofer IPT untersucht den Einsatz des Automated Data Preprocessing im Produktionskontext, um die bisherige manuelle Datenvorverarbeitung zu beschleunigen und Data Scientists zukünftig von diesen monotonen Aufgaben zu entlasten.

Unsere Leistungen im Überblick

  • Data Quality Check zur Beurteilung der Datenqualität von Unternehmen und Roadmapping zur Verbesserung der Datenqualität
  • Implementierung einer wiederverwendbaren Data Preprocessing Pipeline zur standardisierten Aufbereitung von Daten im Unternehmen
  • Data Preprocessing Seminar für die Befähigung der Mitarbeiter zur Entwicklung einer unternehmenseigenen Data Preprocessing Pipeline