Big Data braucht vor allem Daten
Bild: @istock.com/Vladimir_Timofeev Posted on von Analysten | Big Data

Big Data braucht vor allem Daten

Big Data ist ein Trendthema, und viele Lösungen stehen bereit, um große Mengen polystrukturierter Daten schnell zu analysieren. Die Szenarien leben davon, bisher nicht miteinander verbundene Daten in einen Zusammenhang zu bringen. Welche Daten sind das, und woher kommen diese?

Was zeichnet Big Data aus? In der klassischen Definition waren das die „drei V“ Volume, Velocity und Variety, also die Menge an Daten, die Geschwindigkeit der Analyse und die Vielfalt der Daten. In den letzten Jahren wurden zahlreiche Anwendungsszenarien entwickelt, die illustrieren, wie neue Erkenntnisse aus der Analyse der Daten die Geschäftsmodelle beeinflussen oder sogar revolutionieren. Ein paar Asse haben diejenigen in der Hand, die über unterschiedliche Daten verfügen. Einen Full-House haben die in der Hand, deren Analyse-Tool bisher nicht im Zusammenhang verarbeitete Daten verknüpft und unter neuen Aspekten verarbeitet. Ein sehr schönes Beispiel ist die Papierfabrik, deren Maschinen mit vielen Sensoren ausgestattet sind. Diese Sensoren und die entsprechenden Stellvorrichtungen messen, steuern und regeln die Papiermaschinen. Dennoch zeigen sich immer wieder auf einer Anlage kleinere Ausbeuterückgänge. Alles Messen, Steuern und Regeln nützt nichts. Im Rahmen einer Big-Data-Kampagne kopierte das Unternehmen alle Daten vom ERP über die Maschinendaten bis zur Supply Chain in einen sogenannten Data Lake.

Ein Data Scientist durfte mit den Daten „spielen“. Mit dem Ausbeuteproblem im Hinterkopf legte dieser unter anderem die Produktionsdaten, die Kalenderdaten und die Vertragsdaten mit den Zulieferern zusammen. Erst als die Wetterdaten auch noch in die Algorithmen gegossen wurden, zeigte sich eine Erkenntnis: Eine Spedition für die Rohware nutzte Lkw mit Plane anstelle von Kastenaufbauten. Immer dann, wenn es regnerisch war und gleichzeitig dieser Spediteur an der Reihe war, entstanden die Fehler, die zwar durch die Wareneingangskontrolle kamen, aber in der Anlage für diesen gewissen Rückgang der Ausbeute sorgten. Schnell war dann der Zusammenhang zwischen Plane, Materialfeuchte und Ausbeute hergestellt, und der Spediteur wurde darauf hingewiesen.

Bei Gesprächen mit Anwendern auf Messen und Kongressen erhalte ich beispielsweise die Reaktion: „Genau so war es bei uns. Erst durch Einbeziehung der Wetterdaten, konnten wir den Fehler auf ein ungünstiges Hallenfenster zurückführen. Bei bestimmten Wetterlagen scheint die Sonne durch dieses eine Fenster für eine bestimmte Zeit auf eine Lichtschranke, die dadurch gestört wird.“

Daten sprudeln aus allen Quellen (und versickern manchmal)

Woher kommen aber all die Daten? Eine gewisse Menge an Daten kommt aus den IT-Systemen im eigenen Unternehmen. Diese Daten sind relativ leicht zu haben, wenn sie schon in Datenbanken und Excel-Tabellen, auf Mail-Servern oder Geräten mit einer IP-Adresse stecken. Schon etwas schwieriger wird es mit den Daten, die in den Maschinen und Anlagen entstehen. Hier ist es oft schon erforderlich, die Geräte zu vernetzen, also mit einer IP-Adresse auszustatten, bzw. diese ins Netz einzubinden, Schnittstellen zu programmieren oder APIs für die Übertragung von Daten in einen Big-Data-Speicher oder einen Data Lake zu verwenden. Mitunter gilt es auch, eigenständige Systemwelten wie die Warenwirtschaft, das CRM oder die SCM-Umgebung anzuschließen. Einen nicht unerheblichen Teil der nutzbaren Daten liefern übrigens die Systeme der IT-Infrastruktur eines Unternehmens selbst: Verfügbarkeiten, Zugriffe, Traffic, Speicherauslastung und CPU-Nutzung durch die Apps. Ein weiterer großer Fundus an Rohdaten findet sich in den Geschäftsbeziehungen sowohl mit Endverbrauchern als auch mit Unternehmenspartnern und Geschäftskunden. Auch diese haben Maschinen, Computer, Datenbanken und CRM-Systeme.

Die dritte Gruppe der Datenlieferanten ist mitunter die wichtigste, aber auch die am schwersten zugängliche: öffentliche und kommerzielle Datenlieferanten. Das typische Beispiel sind Wetterinformationen, Verkehrsinformationen, Social-Media-Daten, Statistiken aus der öffentlichen Hand und von kommerziellen Anbietern wie den Marktforschungsunternehmen sowie Daten aus dem Alltag wie z.B. aus dem Einzelhandel. Manchmal ist es gar nicht so einfach, an diese Daten heranzukommen. Andere Daten sind mehr oder minder frei zugänglich, aber kaum jemand weiß davon. Bei der Erschließung dieser Daten kann vielen Anwendern von professionellen Dienstleistern geholfen werden. Diese verfügen durch ihre bisherigen Projekte nicht nur über ein Rechenzentrum, in dem der Data Lake und die Analytics-Lösung implementiert werden können, sondern oft auch über den Erfahrungsschatz, den sich ein Anwenderunternehmen erst mühsam aufbauen müsste: von der Erschließung der IP-Adressen bis zur Aufbereitung der Daten (denn diese ist trotz anderslautender Versprechungen nötig).

Sharing is caring – Machen Sie Ihre Daten zu Gold

In einem Unternehmen gibt es also unheimlich viele Daten, in denen Informationen stecken. In der Praxis erlebe ich jedoch oft auch administrative Hürden, die hier unsinnigerweise aufgebaut sind.

Eines würde ich mir besonders wünschen: Offene Datenpools für bestimmt Branchen, in denen zum Beispiel Versorgungsunternehmen oder Versicherungen oder Fertigungsunternehmen ihre Daten einspielen. Wer ein Terabyte an Daten einlegt, darf auch ein Terabyte entnehmen. Das würde sich durchaus lohnen. Der Handel mit Daten wird in jedem Fall in den kommenden Jahren für fast jedes Unternehmen zu einem eigenen wichtigen und notwendigen Geschäftsbereich werden. Es müssen nicht immer die Betriebsgeheimnisse sein, und es müssen fast nie personenbezogene Daten sein. Vor allem dann, wenn die hausinternen Business-Intelligence- und Business-Analytics-Applikationen die Daten ausgewertet haben, lohnt sich der Datenaustausch mit Partnern. Im Industrie-4.0-Umfeld gibt es bereits erste vielversprechende Initiativen. Wann beginnen Sie mit Ihren Partnern und Ihrer Supply Chain die Arbeit an einem gemeinsamen Big-Data-Pool?

Der Autor

Holm Landrock ist für ISG als ICT-Analyst und Kommunikationsberater aktiv. Seine Kernthemen liegen in der technisch-wissenschaftlichen IT sowie bei Trendthemen wie Big Data, E-Health und Industrie 4.0.

zurück zur Startseite

Kommentar

Wenn Sie die E-Mail-Adresse eingeben, die Sie bei Twitter oder Gravatar verwenden, erscheint Ihr Bild neben dem Kommentar.

mit * gekennzeichnete Felder sind Pflichtfelder. Sie erhalten zur Freischaltung ihres Kommentars eine E-Mail. Ihre E-Mail-Adresse wird nicht veröffentlicht.