Datenvisualisierung

Was ist es und warum wir es verwenden.

Was ist Datenvisualisierung?

Datenvisualisierung oder häufig unübersetzt als Data Visualization bezeichnet, bezieht sich auf Techniken, die verwendet werden, um Erkenntnisse aus Daten durch visuelle Darstellung zu kommunizieren. Das Hauptziel besteht darin, große Datensätze in visuelle Grafiken umzuwandeln, um komplexe Zusammenhänge innerhalb der Daten leicht zu verstehen. Sie wird häufig in Verbindung mit Begriffen wie Informationsgrafiken, statistischen Grafiken und Informationsvisualisierung verwendet.

Datenvisualisierung ist einer der Schritte des Data-Science-Prozesses, der von Joe Blitzstein entwickelt wurde und einen Rahmen für die Herangehensweise an Data-Science-Aufgaben darstellt. Nachdem die Daten erfasst, verarbeitet und modelliert wurden, müssen die Beziehungen visualisiert werden, damit eine Schlussfolgerung gezogen werden kann.

Sie ist auch Bestandteil der breiteren Disziplin der Data Presentation Architecture (DPA), die Daten möglichst effizient identifiziert, lokalisiert, manipuliert, formatiert und präsentiert.

Warum ist sie wichtig?

Laut dem World Economic ForumWeltwirtschaftsforum produziert die Welt täglich 2,5 Trillionen Datenbytes, und 90 % aller Daten wurden in den letzten zwei Jahren erstellt. Mit so vielen Daten wird es immer schwieriger, alles zu verwalten und zu verstehen. Es ist für eine einzelne Person unmöglich, Daten zeilenweise durchzugehen, bestimmte Muster zu sehen und Beobachtungen vorzunehmen. Die Datenausbreitung kann als Teil des Data-Science-Prozesses gehandhabt werden, einschließlich der Datenvisualisierung.


Verbesserter Einblick

Eine Bestandsaufnahme mittels explorativer Datenanalyse kann Einblicke liefern, die mit herkömmlichen beschreibenden Statistiken nicht möglich sind. Ein perfektes Beispiel dafür ist das Anscombe-Quartett, das 1973 von Francis Anscombe erstellt wurde. Die Abbildung enthält vier verschiedene Datensätze mit nahezu identischer Abweichung, Mittelwert, Korrelation zwischen X- und Y-Koordinaten und linearen Regressionslinien. Die Muster sind jedoch deutlich unterschiedlich, wenn sie in einem Diagramm dargestellt werden. Unten sehen Sie, dass ein lineares Regressionsmodell für die Diagramme eins und drei gelten würde, ein polynominales Regressionsmodell wäre jedoch für Diagramm zwei ideal. Diese Abbildung hebt hervor, warum es wichtig ist, Daten zu visualisieren und sich nicht nur auf beschreibende Statistiken zu verlassen.

Anscombes Quartett

Schnellere Entscheidungsfindung

Unternehmen, die ihre Daten sammeln und schnell darauf reagieren können, sind auf dem Markt wettbewerbsfähiger, da sie fundierte Entscheidungen früher treffen können als die Konkurrenz. Geschwindigkeit ist der Schlüssel, und Datenvisualisierung unterstützt das Verständnis großer Datenmengen, indem visuelle Darstellungen auf Daten angewendet werden. Diese Visualisierungsebene befindet sich normalerweise auf einem Data-Warehouse oder Data-Lake und ermöglicht es Benutzern, Daten auf Self-Service-Basis zu entdecken und zu untersuchen. Dies spornt nicht nur die Kreativität an, sondern reduziert auch die Notwendigkeit, dass die IT kontinuierlich Ressourcen für den Aufbau neuer Modelle zuweisen muss.

Ein Marketing-Analyst, der zum Beispiel auf 20 verschiedenen Anzeigenplattformen und internen Systemen arbeitet, muss die Effektivität von Marketingkampagnen schnell verstehen. Ein manueller Weg, dies zu tun, wäre, einen Bericht aus jedem einzelnen System abzurufen, die Daten zu kombinieren und dann in Excel zu analysieren. Der Analyst muss dann einen Schwarm von Metriken und Attributen betrachten und wird Schwierigkeiten haben, Schlussfolgerungen zu ziehen. Moderne Business-Intelligence-Plattformen (BI-Plattformen) verbinden Datenquellen und Ebenen jedoch automatisch mit Datenvisualisierungen, sodass der Analyst die Daten mühelos aufteilen und in kürzester Zeit Schlussfolgerungen zur Marketingleistung ziehen kann. Als weiterer Schritt sind Self-Service-Analytics genannt, mittels derer sich Marketingmitarbeiter ihre eigene Berichte generieren können.


Ein Grundbeispiel

Nehmen wir an, Sie sind Einzelhändler und möchten den Verkauf von Jacken mit dem Verkauf von Socken im Laufe des vergangenen Jahres vergleichen. Es gibt mehr als eine Möglichkeit, die Daten zu präsentieren, und Tabellen sind eine der häufigsten. So würde das aussehen:

In der obigen Tabelle ist eindeutig ersichtlich, ob diese Informationen benötigt werden. Es ist jedoch schwierig, sofort Trends und die Geschichte dieser Daten zu erkennen.

Hier nun die Daten in einer Liniendiagramm-Visualisierung:

2 Liniendiagramme

Aus der Visualisierung wird sofort ersichtlich, dass der Absatz von Socken konstant bleibt, mit kleinen Spitzen im Dezember und Juni. Auf der anderen Seite ist der Verkauf von Jacken saisonal höher und erreicht im Juli einen Tiefpunkt. Er steigt dann wieder an und erreicht seinen Höhepunkt im Dezember, bevor er dann monatlich bis kurz vor Herbst wieder fällt. Sie könnten die gleiche aus dem Diagramm ablesen, aber Sie würden viel länger brauchen. Stellen Sie sich vor, Sie versuchen eine Tabelle mit tausenden von Datenpunkten zu verstehen.

Die Wissenschaft hinter der Datenvisualisierung

Informationsverarbeitung

Um die Wissenschaft hinter der Datenvisualisierung zu verstehen, müssen wir zuerst diskutieren, wie Menschen Informationen sammeln und verarbeiten. In Zusammenarbeit mit Amos Tversky führte Daniel Kahn umfangreiche Untersuchungen durch, um herauszufinden, wie wir Gedanken bilden, und kam zu dem Schluss, dass wir eine von zwei Methoden verwenden:


System I

Beschreibt die schnelle, automatische und unbewusste Gedankenverarbeitung. Wir wenden diese Methode in unserem Alltag häufig an und können dadurch Folgendes erreichen:

  • Den Text auf einem Schild lesen
  • Bestimmen, wo ein Geräusch herkommt
  • 1+1 lösen
  • Den Unterschied zwischen Farben erkennen
  • Fahrradfahren

System II

Beschreibt einen langsamen, logischen, seltenen und berechnenden Gedanken und umfasst:

  • Den Unterschied in der Bedeutung mehrerer nebeneinander liegenden Zeichen erkennen
  • Rezitieren deiner Telefonnummer
  • Verstehen komplexer sozialer Hinweise
  • 23x21 lösen

Mit diesen beiden Denksystemen erklärt Kahn, warum Menschen Schwierigkeiten haben, statistisch zu denken. Er erklärt, dass das System-I-Denken auf Heuristiken und Vorurteilen basiert, um mit der Menge an Stimuli umzugehen, auf die wir täglich treffen. Ein Beispiel für Heuristiken bei der Arbeit ist ein Richter, der einen Fall nur im Hinblick auf historische Fälle sieht, trotz der Nuancen und Unterschiede, die im neuen Fall einzigartig sind. Ferner definierte er die folgenden Vorurteile:

  • Verankerung

  • Eine Tendenz, von irrelevanten Zahlen beeinflusst zu werden. Diese Voreingenommenheit wird zum Beispiel von Verhandlungspartnern manipuliert, die einen niedrigeren Preis (den Anker) anbieten, als den, den sie erwarten, und am Ende einen etwas höheren als den Anker erzielen.

  • Verfügbarkeit

  • Die Häufigkeit, mit der Ereignisse in unserem Kopf auftreten, ist keine genaue Reflexion der tatsächlichen Wahrscheinlichkeiten. Dies ist eine gedankliche Abkürzung – um anzunehmen, dass Ereignisse, an die wir uns erinnern können, wahrscheinlicher auftreten.

  • Auswechslung

  • Dies bezieht sich auf unsere Tendenz, schwierige Fragen durch einfachere zu ersetzen. Diese Voreingenommenheit wird auch als Trugschluss oder „Linda-Problem“ bezeichnet. Dieses Beispiel stellt die Frage:

    Linda ist 31 Jahre alt, alleinstehend, offen und sehr smart. Sie hat einen Abschluss in Philosophie. Als Studentin beschäftigte sie sich intensiv mit Diskriminierung und sozialer Gerechtigkeit und beteiligte sich auch an Anti-Atom-Demonstrationen.

    Was ist wahrscheinlicher?

    1) Linda ist eine Bankangestellte

    2) Linda ist Bankangestellte und engagiert sich in der feministischen Bewegung

    Die meisten Teilnehmer der Studie wählten die zweite Option, obwohl dies gegen das Wahrscheinlichkeitsgesetz verstößt. Ihrer Meinung nach war Option zwei eher repräsentativ für Linda, daher verwendeten sie das Substitutionsprinzip, um die Frage zu beantworten.

  • Optimismus und Verlustaversion

  • Kahn glaubte, dass dies die bedeutendste Voreingenommenheit sein könnte, die wir haben. Optimismus und Verlustaversion geben uns die Illusion der Kontrolle, da wir uns meist nur mit der Möglichkeit befassen, dass bekannte Ergebnisse beobachtet werden. Bekannte Unbekannte oder völlig unvorhergesehene Ergebnisse berücksichtigen wir oft nicht. Unsere Vernachlässigung dieser Komplexität erklärt, warum wir eine kleine Stichprobengröße verwenden, um starke Annahmen über zukünftige Ergebnisse zu treffen.

  • Framing

  • Framing bezieht sich auf den Kontext, in dem Auswahlmöglichkeiten dargestellt werden. Beispielsweise neigten mehr Probanden dazu, sich für eine Operation zu entscheiden, wenn sie von einer Überlebensrate von 90 % und nicht von einer Sterblichkeitsrate von 10 % geprägt war.

  • Sunk cost

  • Diese Voreingenommenheit tritt häufig in der Welt der Anleger auf, wenn die Anleger weiterhin in ein schlechtes Anlagevermögen mit schlechten Aussichten investieren, anstatt sich aus der Anlage zu befreien und in ein Vermögen mit günstigeren Aussichten investieren.

Im Hinblick auf die Systeme I und II, zusammen mit Voreingenommenheit und Heuristiken, sollten wir sicherstellen, dass die Daten auf eine Art und Weise dargestellt werden, die korrekt mit unserem System-I-Denkprozess kommunizieren. Dies ermöglicht unserem System-II-Denkprozess, Daten genau zu analysieren. Unser unbewusstes System I hat die Fähigkeit, etwa 11 Millionen Informationen/Sekunde zu verarbeiten, gegenüber unserem Bewusstsein, das nur 40 Informationen/Sekunde verarbeiten kann..

Wir müssen auch verstehen, wie jedes System unsere Sinne nutzt, um Informationen aufzunehmen. Laut Tor Norretanders’ The User Illusion verarbeitet der visuelle Sinn die meisten Informationen in beiden Systemen:

Visuelle Verarbeitungsbandbreite

Da unser unterbewusstes System mehr Informationen durch Vision verarbeitet, ist die Datenvisualisierung eine perfekte Lösung, um Muster und Erkenntnisse aus Datensätzen zu kommunizieren. Wenn jemand eine Visualisierung von Daten sieht, dauert es weniger als 500 Millisekunden für das Auge und das Gehirn, sogenannte vor-aufmerksame visuelle Eigenschaften eines Bildes zu verarbeiten. In Colin Wares Informationsvisualisierung: Perception for Design definiert er vier vor-aufmerksame visuelle Eigenschaften:

  1. Farbe
  2. Form
  3. Bewegung
  4. Räumliche Positionierung

Diese vier Komponenten bilden die Struktur einer jeden Datenvisualisierung und sollten für die Präsentation sorgfältig geprüft werden.

Kurze Geschichte

Allgemeine Arten der Datenvisualisierung


Zeitreihen

  • Liniendiagramme
  • Dies sind die grundlegendsten und am häufigsten verwendeten Visualisierungen. Sie zeigen eine Veränderung einer oder mehrerer Variablen im Zeitverlauf.

    Liniendiagramm-Beispiel

    Wann anzuwenden: Wenn Sie zeigen müssen, wie sich eine Variable im Laufe der Zeit ändert.

  • Flächendiagramm
  • Eine Variation von Liniendiagrammen und Flächendiagrammen zeigt mehrere Werte in einer Zeitreihe an.

    area chart example

    Wann anzuwenden: Wenn Sie kumulative Änderungen in mehreren Variablen über die Zeit anzeigen müssen.


Rangfolge

  • Balkendiagramme
  • Diese Diagramme ähneln Liniendiagrammen, verwenden jedoch Balken, um jeden Datenpunkt darzustellen.

    bar chart example

    Wann anzuwenden: Balkendiagramme werden am besten verwendet, wenn Sie mehrere Variablen in einem einzigen Zeitrahmen oder eine einzelne Variable in einer Zeitreihe vergleichen möchten.

  • Bevölkerungspyramiden
  • Bevölkerungspyramiden sind gestapelte Balkendiagramme, die den komplexen sozialen Wandel einer Bevölkerung darstellen.

    population pyramid example

    Wann anzuwenden: Wenn Sie die Verteilung einer Population anzeigen müssen.


Teil des Ganzen

  • Kreisdiagramme
  • Diese zeigen die Teile eines Ganzen in Form einer Torte.

    pie chart example

    Wann anzuwenden: Wenn Sie Teile eines Ganzen prozentual anzeigen möchten. Viele Experten empfehlen jedoch die Verwendung anderer Formate, da es für das menschliche Auge schwieriger ist, die Daten in diesem Format aufgrund der längeren Verarbeitungszeit zu verstehen. Viele argumentieren, dass ein Balkendiagramm oder ein Liniendiagramm sinnvoller sind.

  • Baumdiagramme
  • Baumdiagramme sind eine Möglichkeit, hierarchische Daten in einem verschachtelten Format anzuzeigen. Die Größe der Rechtecke ist proportional zum Prozentsatz jeder Kategorie des Ganzen.

    tree map example

    Wann anzuwenden: Diese sind am nützlichsten, wenn Sie Teile eines Ganzen miteinander vergleichen möchten und viele Kategorien haben.


Abweichung

  • Balkendiagramm (aktuell vs. erwartet)
  • Diese vergleichen einen erwarteten Wert mit dem tatsächlichen Wert für eine bestimmte Variable.

    bar chart expected vs unexpected  example

    Wann anzuwenden: Wenn Sie erwartete und tatsächliche Werte für eine einzelne Variable vergleichen müssen. Das oben genannte Beispiel zeigt die Anzahl der verkauften Teile pro Kategorie vs. der erwarteten Anzahl. Sie können leicht sehen, dass Sweatshirts unter den Erwartungen lagen, und das vor allen anderen Kategorien, wohingegen Kleider und Shorts die Erwartungen übertrafen.

Korrelation

  • Streudiagramme
  • Streudiagramme zeigen die Korrelation zwischen zwei Variablen in Form einer X- und Y-Achse und von Punkten, die Datenpunkte darstellen.

    scatter plot example

    Wann anzuwenden: Wenn Sie die Korrelation zwischen zwei Variablen sehen möchten.


Häufigkeitsverteilung

  • Histogramme
  • Histogramme stellen dar, wie oft ein Ereignis in einem bestimmten Datensatz auftritt und stellen das in einem Balkendiagramm dar.

    histogram example

    Wann anzuwenden: Wenn Sie die Häufigkeitsverteilung eines bestimmten Datensatzes ermitteln möchten. Sie möchten zum Beispiel die relative Wahrscheinlichkeit sehen, dass 300 Artikel pro Tag bei historischer Wertentwicklung verkauft werden.

  • Box plots
  • Dies sind nichtparametrische Visualisierungen, die ein Maß für die Zerstreuung anzeigen. Die Box repräsentiert das zweite und dritte Quartil (50 %) der Datenpunkte und die Linie innerhalb der Box repräsentiert den Median. Die zwei Linien, die sich außerhalb des Kastens erstrecken, werden Whisker genannt und repräsentieren das erste und vierte Quartil sowie den Minimal- und Maximalwert.

    box plot example

    Wann anzuwenden: Wenn Sie die Verteilung eines oder mehrerer Datensätze anzeigen möchten. Diese werden anstelle von Histogrammen verwendet, wenn der Platz minimiert werden muss.


Nominaler Vergleich

  • Blasendiagramme
  • Blasendiagramme sind wie Streudiagramme, fügen jedoch mehr Funktionalität hinzu, da Größe und/oder Farbe jeder Blase zusätzliche Daten darstellen.

    bubble chart example

    Wann anzuwenden: Wenn Sie drei Variablen zum Vergleich haben.

  • Heat-Map
  • Eine Heat-Map ist eine grafische Darstellung von Daten, in denen jeder einzelne Wert in einer Matrix enthalten ist. Die Farbtöne repräsentieren eine in der Legende definierte Menge.

    heatmap example

    Wann anzuwenden: Dies ist nützlich, wenn Sie eine Variable über eine Matrix von Daten hinweg analysieren möchten, beispielsweise einen Zeitraum von Tagen und Stunden. Mit den verschiedenen Farbnuancen können Sie die Extreme schnell erkennen. Das obige Beispiel zeigt die Benutzer einer Website nach Stunden und Tageszeiten während einer Woche.


Geografischer Vergleich

  • Choropleth
  • Choropleth-Visualisierungen sind Variationen von Heat-Maps, bei denen die Schattierung auf einer geographischen Karte angewendet wird.

    chloropleth example

    Wann anzuwenden: Wenn Sie einen Datensatz gemäß geografischen Regionen vergleichen müssen.

Fluss

  • Sankey-Diagramm
  • Das Sankey-Diagramm ist eine Art Flussdiagramm, in dem die Breite der Pfeile proportional zur Menge des Flusses angezeigt wird.

    sankey diagram  example

    Wann anzuwenden: Wenn Sie den Fluss einer Menge visualisieren müssen. Das obige Beispiel ist ein berühmtes Beispiel für Napoleons Armee, als sie während eines kalten Winters in Russland einmarschierte. Die Armee beginnt als große Masse, schrumpft jedoch, während sie sich in Richtung Moskau bewegt und sich zurückzieht.


Beziehungen

  • Netzwerkdiagramm
  • Diese zeigen komplexe Beziehungen zwischen Einheiten an. Es zeigt, wie jede Einheit mit den anderen verbunden ist, um ein Netzwerk zu bilden.

    network diagram  example

    Wann anzuwenden: Wenn Sie die Beziehungen innerhalb eines Netzwerks vergleichen müssen. Diese sind besonders für große Netzwerke nützlich. Das obige zeigt das Netzwerk von Flugrouten der Southwest Airlines.

Anwendungsfälle

Datenvisualisierung wird in vielen Disziplinen eingesetzt und beeinflusst, wie wir die Welt täglich sehen. Es wird immer wichtiger, sowohl in geschäftlichen als auch in öffentlichen Diensten, schnell reagieren und Entscheidungen treffen zu können. Nachfolgend haben wir einige Beispiele zusammengestellt, wie Datenvisualisierung häufig verwendet wird.

Vertrieb und Marketing

Im folgenden Beispiel hat laut Recherche der Medienagentur Magna wird bis 2020 die Hälfte des globalen Werbebudgets online ausgegeben. Aus diesem Grund müssen die Vermarkter immer den Überblick darüber behalten, wie ihre Web-Objekte zusammen mit ihren Quellen für den Web-Traffic Umsätze erzielen. Visualisierungen können verwendet werden, um auf einfache Weise zu sehen, wie sich der Traffic im Laufe der Zeit durch Marketingmaßnahmen entwickelt hat.

marketing data visualization

Finanzen

Finanzfachleute müssen die Leistung ihrer Investitionen verfolgen, um Entscheidungen zum Kauf oder Verkauf eines bestimmten Vermögenswerts treffen zu können. Kerzendiagramme zeigen, wie sich der Preis im Laufe der Zeit verändert hat, und der Finanzfachmann kann damit Trends erkennen. Die Oberseite jeder Kerze stellt den höchsten Preis innerhalb eines Zeitraums dar, während die Unterseite den niedrigsten Preis darstellt. In dem Beispiel zeigen die grünen Kerzen, wann der Preis gestiegen ist, und die roten, wann er gesunken ist. Die Visualisierung kann die Preisänderung leichter kommunizieren als ein Raster von Datenpunkten.

candlestick chart

Politik

Die bekannteste Visualisierung in der Politik ist eine geographische Karte, die die Partei zeigt, die jeder Bezirk oder jedes Land gewählt hat.

data visualization in politics

Logistik

Reedereien verwenden Visualisierungssoftware, um die globalen Schifffahrtswege zu verstehen.

logistics data visualiztion

Gesundheitswesen

Gesundheitsexperten nutzen Choropleth-Visualisierungen, um wichtige Gesundheitsdaten anzuzeigen. Die folgende Abbildung zeigt die Sterblichkeitsrate von Herzerkrankungen nach Landkreisen in den USA

heart disease mortality rate

Datenvisualisierungs-Tools

D3.js

D3.js steht für Data-Driven-Documents und ist eine JavaScript-Bibliothek für dynamische und interaktive Datenvisualisierungen in Webbrowsern. Sie wurde 2011 erstellt und wird auf vielen Websites verwendet. Sie bietet Webentwicklern ein Toolset, mit dem APIs und SVG-Grafiken zur Erstellung von Visualisierungen im gesamten Web verwendet werden können.

Excel

Eines der am häufigsten verwendeten Tools, Microsoft Excel, wird mit den meisten Bürocomputern geliefert und ist eine Standardmethode zum Visualisieren von Daten. Es ist für Benutzer sehr einfach, schnelle Visualisierungen zu erstellen. Oft wird es jedoch nicht für Datenaggregation, Kontrolle und erweiterte Berichterstellung in Betracht gezogen.

Microstrategy

MicroStrategy ist ein führender Anbieter von Enterprise-Analytics-Lösungen und bietet kontrollierte und personalisierte Daten von jedem Mitglied einer Organisation. Es kann Big Data schnell und automatisiert verarbeiten und bietet die Möglichkeit, benutzerdefinierte Datenvisualisierungen sofort zu erstellen.

FAQ

Warum verwenden wir Datenvisualisierung?
Welche Vorteile bietet Datenvisualisierung?
Was ist Datenanalyse und -visualisierung?
Wozu dient ein Dashboard bei der Datenvisualisierung?
Warum ist die Visualisierung von Daten so wichtig?
Was ist Datenpräsentation?