+49 (0) 431 – 88 38 026
Ein DataScience Business-Case fängt zunächst bei der richtigen Fragen an.

Sie wollen sich mit Data Science beschäftigen. Sie fragen sich, was Data Analytics und KI für Ihr Unternehmen erreichen kann? Was nutzt das Ganze? Wie kann ich diese Technologien einsetzen? Und wo fange ich an? Das zentrale Element einer soliden Data Science Strategie ist die richtige Frage, die dann wiederum zu einem funktionierenden Business Case führt. Was wollen Sie erreichen? Welche Daten haben Sie und welche Fragestellungen sind wichtig, aktuell aber nicht beantwortet? Welche externen Faktoren wie Wetter, Verkehr, Wirtschaftslage etc. haben Auswirkungen auf Ihr Outcome, auch Ihre Prozesse, auf die Qualität Ihrer Arbeit? All diese Fragen müssen gesammelt, geplustert und mit intern wie extern verfügbaren Daten abgeglichen werden. Nur so lassen sich die relevanten Fragen ermitteln, die mit Hilfe von Datenanalysen beantwortet werden wollen.

Plattform schaffen - Erfahrungen sammeln: Data Lake und Data Analytics als Kickstarter

Möchte man perspektivisch Maschinelles Lernen und vielleicht auch Deep Learning einsetzen, um neue Erkenntnisse zu gewinnen, so muss man sich dessen bewusst sein, dass zu Beginn die Daten stehen. Ohne Daten, viele Daten, kann man keinen sinnvollen KI-Case aufbauen. Daten müssen somit nicht nur intern wie extern identifiziert, sondern auch gespeichert, zusammengeführt, aggregiert, konsolidiert und verrechnet werden. All dies geschieht auf einer unternehmenseigenen Plattform, die wahlweise im eigenen Rechenzentrum ("on Preise") oder aber in der Cloud abgebildet wird. Hier werden die Daten gespeichert und analysiert. Steht nun die Datenplattform (der sogenannte "Data Lake"), müssen Daten erfasst und verarbeitet werden. Denn nur mit vielen Daten und sinnvollen ("smarten") Daten lassen sich anschließend Analysen fahren und später auch KI-Modelle anwenden. Die Daten können auch jetzt schon während der Entstehungsphase ausgewertet werden - ohne den Einsatz von Machine Learning oder Deep Learning. Es ist erstaunlich, was man beispielsweise für spannende Erkenntnisse mit einer einfachen Regressionsanalyse erreichen kann.

Visualisierung und Engineering

Sind die Daten bereits erfasst und werden auf einem eigenen Data Lake verwaltet und zur Verfügung gestellt, macht es Sinn, im Unternehmen und auch extern Quellen zu identifizieren, mit dessen Hilfe weitere Daten erfasst und die aktuellen Modelle einbezogen werden können. Zudem gibt es auch das "Erforschen" und Sichtbarmachen von Datenzusammenhängen Visualisierungstools wie Microsoft Power BI oder Tableau oder aber Bibliotheken für eigene Anwendungen wie D3JS. Auch interaktive Infografiken, die in der Unternehmenskommunikation eingesetzt werden können, lassen sich aus den Daten ableiten. Um diese Daten also nicht nur weiter anzureichern, sondern auch an unterschiedlichen Stellen der Organisation nutzbar zu machen, müssen Schnittstellen entwickelt werden (sogenannte REST APIs oder GraphQL APIs). Diese greifen nach bestimmten regeln auf die Daten zu und führen in Echtzeit Berechnungen und/oder Aggregation durch und liefern die Ergebnisse aus. Diese Software-Module können auch im Kontext von Machine Learning und Deep Learning als intelligente Assistenten eingesetzt werden..

Königsdisziplin: Deep Learning

Deep Learning ist eine Teilmenge der künstlichen Intelligenz, die die Funktionsweise des menschlichen Gehirns bei der Verarbeitung von Daten und der Erstellung von Mustern zur Entscheidungsfindung nachahmt. Die neuroyalen Netzte beim Deep Learning sind in der Lage, aus Daten während der Benutzung zu lernen (analog zum menschlichen Gehirn). Die Daten können dabei strukturiert, aber vor allem auch unstrukturiert sein. Deep Learning arbeitet mit einer Vielzahl an "Neuronenschichten", woher auch der Name "Deep = Tief") kommt. Die Macht des Deep Learning besteht darin, eben diese für Menschen nicht mehr zu verarbeitende unstrukturierten Daten zu verstehen und hier Muster zu erkennen, die der Mensch nicht erkennen kann.

Was ist Data Science?

Data Science beschreibt die Wissenschaft der Datenanalysen. Es umfasst Methoden und Werkzeuge sowie Prinzipien und Modelle der Mathematik und der Informatik, mit dem Ziel, wertvolle/relevante Informationen aus umfangreichen Daten (Big Data) zu gewinnen. Mit diesem Wissen sollen Wettbewerbsvorteile erzielt oder aber Fehler (z.B. in der Produktion) identifiziert werden. Auf Basis der umfassenden Datenanalysen mittels leistungsfähiger Computer (im Rechenzentrum bzw. in der Cloud) lassen sich im zweiten Schritt dann Erkenntnisse durch Maschinelles Lernen aus den Daten gewinnen und Vorhersagen ableiten.

Was macht ein Data Scientist?

Ein Data Scientist verarbeitet und analysiert mittels Computertechnologien große Datenmengen, um aus diesen Informationen und Wissen zu generieren. Ziel ist es, die Daten so zu nutzen, dass Mehrwerte und Zusatznutzen erreicht werden (siehe auch Data Science). Zudem sorgt der Data Scientist dafür, dass stets aktuelle Daten in das System eingespeist werden (als Paket = "Batching" oder aber kontinuierlich = "Streaming") und überwacht die Technologien. Er bereitet dann der Daten so auf, dass diese für weitere Analysen mit KI-Modellen (Machine Learning, Deep Learning, ...) genutzt werden können. Er verdichtet und visualisiert zudem die Informationen, damit diese präsentabel und damit verständlich / kommunizieerbar werden.

Warum der Hype jetzt?

Wir befinden uns in einer Zeit, in der nahezu unbegrenzte Rechenkapazitäten (u.a. in den Cloud-Services von Microsoft, IBM, Amazon oder google) zur Verfügung stehen und darüber hinaus eine flächendeckende, mobile Vernetzung nicht nur der Menschen via Smartphones und Tablets, sondern eben auch zunehmend der Geräte und Dinge ("Internet of Things") sowie der Fahrzeuge und Gebäude gegeben ist. Dieses Setup produziert eine exponentiell wachsende Zahl an Daten. Täglich. Minütlich. Sekündlich. Diese Daten können mit standardmäßigen Analyseformen und Tools nicht mehr verarbeitet werden, so dass mit Big Data und Data Analytics neue Konzepte und Technologien entstanden sind, um auch unfassbar große Datenmengen in Echtzeit verarbeiten und analysieren zu können. Da nicht nur die Daten verfügbar sind (z.B. Open Data der Länder, Städte und Kommunen sowie des Bundes und der Europäischen Union), sondern auch die Rechenkapazitäten in der Cloud für jedes Unternehmen erschwinglich sind, werden in Zukunft die Mehrzahl an Entscheidungen datenbasiert getroffen werden. Hier sind Data Scientist und Data Analysts die gefragten Experten.

Wo ist der Nutzen von Data Science im Unternehmen?

Da die Investitionskosten zu Beginn recht überschaubar sein können, sollte sich ein jedes Unternehmen, eine jede Organisation mit Data Science auseinandersetzen, um erste Erfahrungen zu sammeln. Auch die Tatsache, dass Daten vermehrt kostenlos oder zu sehr geringen Kosten verfügbar gemacht werden können und auch die IoT-Technologien (Stichwort: Sensorik) immer günstiger werden, fördert den Aufbau einer Data Science Strategie. So besteht der erste Nutzen darin, eine eigene Data Lake Strategie aufzubauen, um auf dieser Basis das Fundament für eine zentrale Datenerfassung und Speicherung sowie Verarbeitung / Aggregation zu schaffen. Aus der Analyse der konsolidierten Daten lassen sich auch ohne KI bereits sehr nutzwertige Erkenntnisse gewinnen. Liegen eine Vielzahl an Daten vor - entweder über die Speicherung im Zeitablauf oder aber die Zusammenführung von vielen unterschiedlichen Daten - können durch den Einsatz von Machine Learning oder Deep Learning neue Erkenntnisse ermittelt und Vorhersagen und Empfehlungen automatisiert gewonnen werden. Hier besteht das größte Nutzungspotential - und in Zukunft werden Unternehmen mit einer durchdachten KI-Strategie und einer professionellen KI-Plattform wesentliche präziser, verlustfreier und sicherer Entscheidungen treffen - und damit erfolgreicher sein.

Regressionsanalyse

Die lineare Regression ist ein einfaches mathematisches Konstrukt, um aus der Korrelation von Datenmengen durch Berechnung auf die Zusammenhänge zwischen neuen Datenpaare zu schließen. In der Praxis kommt es oft vor, dass man Kennzahlen hat und diese sich durch z.B. zwei Merkmale beschreiben lassen, die man dann daraufhin untersucht, wie stark sie miteinander zusammenhängen (korrelieren). Beispiel: Hausfläche und Hauspreis beim Verkauf. Bei der Methode der linearen Regression nimmt man an, dass zwischen den beiden Werten ein linearer Zusammenhang besteht. Ich möchte also herausfinden, wo sich in meinem Graphen diese Gerade genau befindet, um dann anhand dieser von einer Kennzahl auf die andere Zahl schließen zu können. Mithilfe der linearen Regression kann man auch einen Trend abschätzen. Das ist vor allem dann von Bedeutung, wenn es sich bei den Daten um eine Zeitreihe handelt.

Machine Learning

Maschinelles Lernen als eine zentrale Methode der Datenanalyse und eine Unterkategorie der "Künstlichen Intelligenz" umfasst die automatisierte (selbst lernende) Erstellung analytischer Modelle zur Mustererkennung. Das Konzept ist, dass Systeme eigenständig aus Daten lernen und Muster erkennen, um anschließend Entscheidungen maschinell zu treffen. Es ist also der erste Schritt, von einem regelbasierten Vorgehen abzuweichen und stattdessen aus Daten durch Musterkennung zu lernen.

Deep Learning

Deep Learning ist eine Teilmenge der künstlichen Intelligenz, die die Funktionsweise des menschlichen Gehirns bei der Verarbeitung von Daten und der Erstellung von Mustern zur Entscheidungsfindung nachahmt. Die neuroyalen Netzte beim Deep Learning sind in der Lage, aus Daten während der Benutzung zu lernen (analog zum menschlichen Gehirn). Die Daten können dabei strukturiert, aber vor allem auch unstrukturiert sein. Deep Learning arbeitet mit einer Vielzahl an "Neuronenschichten", woher auch der Name "Deep = Tief") kommt. Die Macht des Deep Learning besteht darin, eben diese für Menschen nicht mehr zu verarbeitende unstrukturierten Daten zu verstehen und hier Muster zu erkennen, die der Mensch nicht erkennen kann.