Ihre Datenanalysen bringen nicht die gewünschten Erkenntnisse oder dauern viel zu lange, weil Sie nicht genügend Ressourcen haben, um die Daten zu aggregieren, sie zu bereinigen, zu transformieren und zu analysieren? Dann ist es vielleicht Zeit zu prüfen, wie in Ihrem Unternehmen mit Daten gearbeitet wird.
Die Konstanzer Datenanalyse-Spezialisten von KNIME haben drei wichtige Aspekte zusammengefasst, die zeigen, warum visuelle Workflows die Arbeit mit Daten erheblich vereinfachen und verbessern können.
Traditionell arbeiten viele Datenanalysten und Datenwissenschaftler mit Programmiersprachen. Sie nutzen Werkzeuge aus der Softwareentwicklung für die Datenarbeit. Dieses Vorgehen hat sich etabliert, da Datenwissenschaftler früher oft aus den Bereichen Datentechnik (mit SQL-Kenntnissen), Informatik (mit Python-Kenntnissen) oder Mathematik bzw. Statistik (mit R-Kenntnissen) kamen. Zu Beginn funktionierte das gut. Heute ist es jedoch nicht mehr der beste oder schnellste Weg, vielen Menschen mit den unterschiedlichsten Skills die Arbeit mit Daten zu ermöglichen. Denn im Zeitalter von KI und anderen datenlastigen Anwendungen wollen immer mehr Geschäftsbereiche selbst Daten bearbeiten und analysieren. Die Experten dort besitzen meist aber nicht die entsprechenden Programmierkenntnisse und haben auch keine Zeit, sie sich langwierig anzueignen.
Bei der Softwareentwicklung steht zudem in der Regel das Prinzip des „Control Flow“ im Vordergrund – also wie die Software dazu gebracht wird, das zu tun, was sie tut. Bei der Datenwissenschaft geht es vielmehr darum, durch Datenzusammenfassungen oder Modelle Erkenntnisse aus Daten zu gewinnen. Dazu ist es wichtig zu verstehen, was mit den Daten in den verschiedenen Phasen eines Prozesses geschieht, der zu diesen Erkenntnissen und Modellen führt. Es ist aber nicht so wichtig zu verstehen, wie genau das passiert. Anstatt einen Fokus auf den Code selbst (die Implementierung) zu legen, ist es daher viel wichtiger, den Datenfluss sowie die einzelnen Schritte und Ergebnisse sehen und interpretieren zu können. Genau das könnten intelligent angelegte visuelle Workflows heute bieten. Sie zahlen dabei auf drei wichtige Aspekte ein, die bei der Arbeit mit Daten bedacht werden sollten:
1. Die Methode ist wichtiger als der Code
Datenwissenschaftler müssen verstehen, was eine Methode oder ein Algorithmus bewirkt, aber nicht unbedingt, wie diese technisch implementiert sind. Ein Datenwissenschaftler ist beispielsweise für ein Telekommunikationsunternehmen mit der Erstellung eines Modells zur Vorhersage der Kundenabwanderung beauftragt. Er muss also dazu ein geeignetes Modell wählen. Das kann eine logistische Regression, ein Entscheidungsbaum, die Verwendung eines Random Forest-Algorithmusi, oder die Festlegung eines Optimierungsziels für dieses Modell sein, um die beste Vorhersageleistung zu erzielen. Das sind komplexe Entscheidungen, die schon erhebliches Verständnis über die zur Verfügung stehenden Methoden erfordern. Der Code, der einer bestimmten Modelltrainingsmethode zugrunde liegt, ist hierfür aber weniger relevant. Im Allgemeinen interessieren sich Datenwissenschaftler für Folgendes:
- Datenverständnis: die Eigenschaften, Qualität und Struktur der Daten zu erkennen.
- Feature-Engineering: Auswählen und Erstellen relevanter Features aus den Daten, um die Modellleistung zu verbessern.
- Modellauswahl: Auswahl der am besten geeigneten Algorithmen und Techniken für die jeweilige Problemstellung oder Aufgabe sowie die dazugehörigen Daten.
- Modellbewertung: Bewerten der Leistung der Modelle mithilfe geeigneter Metriken und Validierungstechniken.
- Interpretierbarkeit: Verstehen, wie das Modell funktioniert, und in der Lage sein, den Stakeholdern seine Vorhersagen zu erklären.
Kurz gesagt: Datenwissenschaftler interessieren sich für die Tools und Knöpfe und Regler eines Modells, um Erkenntnisse zu gewinnen oder die Zukunft genau vorherzusagen – nicht für die Details der zugrundeliegenden Implementierung.
2. Data Science erfordert Zusammenarbeit
Die Verwendung visueller Workflows erleichtert die Verständigung zwischen Daten- und Fachexperten und liefert ihnen sozusagen eine gemeinsame Sprache. Bei der Zusammenarbeit in einem Team muss ein Dateningenieur so nicht die Details seines SQL-Codes mit einem KI-Ingenieur diskutieren, der Python verwendet, oder mit einer Visualisierungsexpertin, die JavaScript bevorzugt. Das Einbinden der Expertise verschiedener Spezialisten zum richtigen Zeitpunkt im Datenfluss macht visuelle Workflows zu einem hervorragenden Tool für die Zusammenarbeit. Wenn das Tool den Experten optional ermöglicht, bei Bedarf eigenen Code hinzuzufügen, umso besser. Dann können die Experten, die programmieren können (und wollen), ihren Code leicht mit anderen teilen.
Visuelle Workflows sind auch bei der Arbeit zwischen Daten- und Fachexperten-Teams äußerst nützlich. Eine der häufigsten Beschwerden in der Praxis ist, dass die Datenwissenschaftler zu weit von den Daten entfernt seien, um die Besonderheiten und Anomalien zu verstehen, die für Fachexperten offensichtlich wären. Das Einbinden von Fachexpertise und frühzeitiges Feedback sind unerlässlich, um sicherzustellen, dass Data-Science-Projekte nicht zu weit vom Kurs abkommen und letztendlich eine fehlerhafte Lösung liefern. Visuelle Workflows ermöglichen es, Data Science-Lösungen frühzeitig abzustimmen und zu korrigieren.
Ein visueller Workflow dient außerdem als praktische Referenz für alle, die in den Bereichen Governance und Compliance arbeiten, da er eine visuelle Dokumentation darüber liefert, was mit potenziell sensiblen Daten geschieht. Er zeigt zudem alle umgesetzten Sicherheitsvorkehrungen auf und ermöglicht so unter anderem auch eine bessere Kontrolle, wie und auf welche Daten bestimmte KI-Modelle zugreifen – ein riesiges Problem zurzeit, wenn es um den großflächigen Einsatz von KI in Unternehmen geht.
3. Der Umgang mit Daten sollte keine Programmierkenntnisse erfordern
Einer der größten Vorteile visueller Workflows ist die Lernkurve. Datenexperten sind heute gefordert, zukünftige Arbeitskräfte darin zu schulen mit großen Datensätzen zu arbeiten, die in immer mehr Arbeitsbereichen anfallen. Das betrifft Fachkräfte aus den unterschiedlichsten Bereichen – von Marketingfachleuten über Supply-Chain-Analysten, Produktionsingenieure, Chemiker, HR-Analysten und sogar Experten für maschinelles Lernen, die regelmäßig komplexe analytische Workflows erstellen, ohne jemals das Programmieren lernen zu müssen.
Visuelle Workflows erleichtern Anfängern den Einstieg in Datenbearbeitung und -automatisierung. Gleichzeitig machen sie sich so mit einem Tool vertraut, das auch für fortgeschrittene Data Science verwendet werden kann. Innerhalb weniger Stunden können sie ihren ersten echten Workflow erstellen, der Tabellen zusammenfasst, Daten aus einem Warehouse abruft oder sogar ein Machine Learning (ML) Modell erstellt. Nachdem sie das visuelle Workflow-Modell verstanden haben, lernen sie leicht und selbstständig, mehr Knoten und die Funktionsweise der zugrunde liegenden Methoden zu verstehen. Auf diese Weise können sie sich schrittweise neues Fachwissen aneignen und tiefer in das Feld der Datenwissenschaft eintauchen, ohne die visuelle Workflow-Umgebung verlassen zu müssen.
„Visuelle Workflows bieten erhebliche Vorteile für den Umgang mit Daten und die Erkenntnisse, die aus ihnen gewonnen werden können“, bestätigt Michael Berthold, CEO von KNIME. „Es ist allerdings wichtig, bei der Auswahl einer Lösung oder Plattform auf einige wichtige Kriterien zu achten. Dazu gehört, wie oben beschrieben, natürlich die Abdeckung wirklich aller Varianten der Datenanalyse. Wichtig ist aber auch, dass man kontinuierlichen Zugriff auf Weiterentwicklung in diesem nach wie vor sehr aktiven Forschungsgebiet hat. Es führt also kein Weg daran vorbei, Open-Source-Bibliotheken einzugliedern, die Zugriff auf diese Weiterentwicklungen bieten. Kein proprietärer Softwareanbieter hat eine Chance diesem Fortschritt selbst kontinuierlich hinterherzuentwickeln.“
(pd/KNIME)