Unser visuelles System analysiert Bilder in Sekundenbruchteilen, ohne dass wir darüber nachdenken müssten. Datenvisualisierung macht sich diese Fähigkeit zu nutze. Indem Zahlen durch die Grösse eines Kreises, durch die Intensität einer Farbe oder durch die Länge eines Balkens dargestellt werden. Dadurch macht Datenvisualisierung grosse Datenmengen schnell erfass- und vergleichbar.
Inhalt
- Motivation
- Wertetypen
- Daten betrachten
- Visuelle Variabeln
- Beschriftung
- Funktionen
- Werkzeuge und weiterführende Links
Motivation
Unser visuelles System hat erstaunliche Fähigkeiten entwickelt, wenn es darum geht schnell gewisse Muster zu erkennen. Einige dieser Fähigkeiten ermöglichen es uns, komplexe statistische Zusammenhänge zu erfassen, ohne gross darüber nachzudenken. Die nachfolgende Grafik zeigt, wie einfach es uns fällt in Bildern Ausreisser, Mittelwerte, Gruppen und Entwicklungen zu erkennen.
Statistik im visuellen System
Datenvisualisierung macht sich diese Fähigkeit zu Nutze, um grosse Zahlenmengen rasch erfassbar zu machen. Im Vergleich zu Tabellen sind Visualisierungen darum vor allem stark darin, Zusammenhänge zu vermitteln und Werte zu vergleichen. Tabellen dagegen sind ideal, wenn es darum geht Einzelwerte «nachzuschlagen». Mehr dazu unter Funktionen.
Ästhetik
Eine weitere Stärke von Visualisierungen ist, dass sie illustrative Elemente enthalten können. Das führt dazu, dass sich die Leserinnen und Leser besser an den Inhalt der Visualisierung erinnern. Die Visualisierung vermittelt dadurch auch das Thema, um das es geht.
Die erste Priorität, bleibt aber immer der Vergleich und die wahrheitsgetreue Darstellung der Informationen. Eine Visualisierung ohne Aussage wird nicht dadurch gut, dass man sie schön macht. Eine Visualisierung mit einer wichtigen Aussage bleibt dagegen auch im Gedächtnis, wenn sie schlicht ist.
Die Grundfrage, bei jeder Visualisierung lautet deshalb immer: «Was vergleiche ich womit?»
Wertetypen
Nicht alle Daten können auf die gleiche Art visualisiert werden. Wir unterscheiden deshalb vier Wertetypen:
Quantitative Werte sind, einfach gesagt, Zahlen. Zum Beispiel die Anzahl Apps auf einem Smartphone. Oder wie viele Millionen Präsidentschaftskandidaten in den USA für ihre Kampagne ausgeben.
Mit quantitativen Werten kann ich Rechnungen anstellen. Sie zum Beispiel in Prozentwerte umwandeln. Und ein quantitativer Wert ist nicht einfach grösser als ein anderer, er ist viel grösser, oder leicht grösser. Beides führt dazu, dass diese Art von Wert die mächtigste ist. Weil sie am meisten Information enthält.
Zeitliche Werte sind Zeitpunkte. Zum Beispiel wann Sie morgens aufstehen. Oder Ihr Geburtsdatum.
Zeitpunkte und Daten lassen sich nicht nur in eine Ordnung bringen, sie haben, genau wie quantitative Werte, eine Distanz. Aber mit ihnen lassen sich nicht die genau gleichen Rechnungen anstellen.
Ordinale Werte sind solche die sich ordnen lassen. Sie enthalten dagegen keine Information darüber, wie gross die Distanz zwischen zwei Werten ist. Die Medaillen nach einer Tour de France-Etappe geben mir keine Information über den Vorsprung des Siegers zum Träger der Silbermedaille.
Kategorische Werte haben nicht einmal eine Reihenfolge. Eine Liste von Ländern kann ganz verschieden geordnet werden: alphabetisch, nach Grösse, nach Bevölkerung etc. Es gibt keine offensichtliche Reihenfolge.
Kategorische Werte sind damit von allen am wenigsten informativ. In der Visualisierung werden sie deshalb häufig angereichert, indem sie nach einem anderen Wert sortiert werden. Die Länder eben nach Grösse oder Bevölkerung.
Daten betrachten
Wer Daten visualisiert ist in seinen Gestaltungsmöglichkeiten durch die Form der Daten eingeschränkt. Vor den ersten Ideenskizzen ist es darum nötig, die Daten systematisch zu betrachten. Beginnt die Gestaltung bevor die Daten systematisch betrachtet wurden, ist der Misserfolg fast garantiert. Immer gibt es einen unerwarteten Ausreisser oder eine seltsame Verteilung, die dann nicht in die Gestaltung passt.
Dieses Kapitel zeigt darum anhand der folgenden Beispieldaten zu den Olympischen Spielen, wie Daten betrachtet werden:
Jahr | Land | Grösse des Landes | Medaillen |
---|---|---|---|
2008 | Japan | 3 | 31 |
2008 | Frankreich | 2 | 70 |
2008 | Deutschland | 2 | 82 |
2008 | Schweiz | 1 | 6 |
2010 | Japan | 3 | 2 |
2010 | Frankreich | 2 | 1 |
2010 | Deutschland | 2 | 24 |
2010 | Schweiz | 1 | 9 |
2012 | Japan | 3 | 93 |
2012 | Frankreich | 2 | 90 |
2012 | Deutschland | 2 | 57 |
2012 | Schweiz | 1 | 1 |
Tabellarische Daten enthalten einzelne Datenpunkte in Zeilen – wie viele Medaillen ein Land in einem Jahr gewonnen hat und wie gross dieses Land ist. Die Spalten enthalten die Dimensionen, die für jeden Eintrag erfasst wurden – zu jedem Eintrag ist ein Jahr, ein Land, dessen Grösse und eine Anzahl Medaillen vorhanden. Eine Dimension enthält immer nur Werte eines Typs (siehe Wertetypen). So sollte in der Spalte mit den Ländern nicht plötzlich das Jahr 2016 auftauchen.
Der erste Schritt beim Betrachten der Daten ist, zu verstehen, welche Dimensionen vorhanden sind und welchen Wertetyp sie enthalten. Im vorliegenden Fall:
Zeitlich | Kategorisch | Ordinal | Quantitativ |
---|
Im nächsten Schritt werden die Werte in den Dimensionen, je nach Wertetyp unterschiedlich, betrachtet:
Zeitlich: Von wann bis wann reichen die Werte? Wie gross sind die zeitlichen Abstände? Im Beispiel reichen die Werte von 2008 bis 2014 mit einem Abstand von zwei Jahren.
Kategorisch: Welche und wie viele Kategorien gibt es? Gibt es für jede Kategorie gleich viele Einträge? In unserem Fall Japan, Frankreich, Deutschland und die Schweiz. Jedes Land kommt drei Mal vor.
Ordinal: Von wo bis wo reichen die Werte? Wie sind sie verteilt? Die Grössen bewegen sich zwischen 1 und 3. Der Wert 2 kommt doppelt so häufig vor, wie die anderen.
Quantitativ: Von wo bis wo reichen die Werte? Wie sind sie verteilt? Die Werte reichen von 1 bis 93 Medaillen. Die Verteilung zu eruieren ist etwas schwieriger. Deutlich wird, dass es relativ viele Werte unter 10 gibt. Aber deutlicher wird die Verteilung mit einem Histogramm
Die Verteilung der Werte in einer Dimension wird mit einem Histogramm schnell deutlich:
Das Beispiel lässt sich hier mit dem Datensatz «Olympische Spiele» nachvollziehen.
Visuelle Variabeln
Damit aus Werten Bilder werden, müssen sie auf Visuelle Variabeln gemappt werden. Das heisst, für jede Dimension muss entschieden werden, wie sie dargestellt werden soll. Durch Farbe oder Grösse, durch die Position auf einer Achse oder unterschiedliche Formen wie Kreise oder Rechtecke:
Jede Datenvisualisierung funktioniert über solche Mappings. Wie aber das Beispiel oben zeigt, funktionieren nicht alle Konfigurationen gleich gut. Ein Grund dafür ist, dass unser Auge die Visuellen Variabeln unterschiedlich präzise wahrnehmen kann:
Effektivität von Visuellen Variabeln
Die Faustregel bei der Wahl der Visuellen Variabeln ist, dass mächtigere Wertetypen auf effektivere Visuelle Variabeln gemappt werden sollten.
Wenn eine Dimension auf eine Visuelle Variabel gemappt wurde, zum Beispiel die Länge eines Balkens, dann darf diese Balkenlänge nicht mehr beliebig verändert werden. Sie ist sozusagen blockiert. Gleichzeitig ist der Gestalter oder die Gestalterin weiterhin frei, alle anderen Visuellen Variabeln zu verändern. Die Farbe, Position oder sogar die Form des Balkens sind so weiterhin frei für die Gestaltung und das Herstellen von Kontext. Siehe Motivation.
Beschriftung
Alle gemappten Dimensionen müssen beschriftet sein. Das ist die allererste Regel bei der Beschriftung von Visualisierungen. Dabei gibt es drei Möglichkeiten, die Dimensionen zu beschriften. Wenn genug Platz vorhanden ist, ist die direkte Beschriftung am effektivsten. Danach die Achsenbeschriftung und zuletzt die Legende.
Lesebeispiele
Eine oft übersehene Art der direkten Beschriftung ist das Lesebeispiel. Lesebeispiele erklären dem Leser oder der Leserin anhand eines einzelnen Datenpunktes, wie die Visualisierung zu verstehen ist. Aber auch, wenn ein Lesebeispiel gemacht wird, sollte nicht auf die Achsenbeschriftungen verzichtet werden. Sie sind eine weitere Absicherung, dass die Grafik korrekt verstanden wurde.
Im Allgemeinen ist es wünschenswert, den Leserinnen und Lesern in mehrfacher Hinsicht die Bestätigung zu geben, dass sie eine Visualisierung richtig interpretiert haben. So sollte der erste Eindruck schon dem entsprechen, was der Titel sagt. Und das Verständnis der Grafik sollte sich auch nach dem Studium der Achsen nicht grundlegend ändern.
Die Aussage des Titels ist dabei das, was im Gedächtnis haften bleibt. Steht er im Widerspruch zur Grafik, erinnern sich die Leserinnen und Leser doch an den Titel, auch wenn sie im Moment verunsichert sind.
Funktionen von Visualisierung
Bei der Entscheidung, welche Dimensionen auf welche Visuellen Variabeln gemappt werden sollen, ist auch die Funktion einer Visualisierung wichtig. Soll sie zeigen, welches Land am meisten Olympische Medaillen gewonnen hat? Oder welches Land am konstantesten Erfolge feierte? Oder soll die Visualisierung verdeutlichen, dass grössere Länder an der Olympiade tendenziell erfolgreicher sind? Je nach Funktion, bietet sich eine andere Form an. Die Form sollte so gewählt werden, dass die Hauptaussage der Visualisierung durch das visuelle System ohne grosse Mühe erfasst wird. Ein paar Beispiele für verschiedene Funktionen finden sich in der folgenden Auflistung:
Grössenvergleich
Beispiele:
- Mehr als eine halbe Million Syrer zugewandert
- Die tödlichsten Ereignisse in der Menschheitsgeschichte
- Wie viele Protestierende in Hong Kong festgenommen wurden
Teil eines Ganzen
Beispiele:
- Wie viel tragen Unternehmen zu den CO₂-Emissionen bei?
- Wie viel der Fleischverzicht der Umwelt helfen würde
- Der Kohleverbrauch sinkt – aber Öl und Gas machen den positiven Effekt zunichte
Zeitverlauf
Beispiele:
- Der Kohleverbrauch sinkt – aber Öl und Gas machen den positiven Effekt zunichte
- Wie viel in den Medien über Frauen berichtet wird
Abweichung von einer Norm
Verteilung
Beispiele:
Zusammenhang zwischen zwei Werten
Die Typisierung basiert auf dem Visual Vocabulary der Financial Times und wurde von Anja Lemcke von der NZZ aufbereitet.
Viele der gezeigten Visualisierungen haben den Vorteil, dass sie geläufig sind und darum rasch verstanden werden. Eine einfache Visualisierung zu verwenden heisst aber nicht, dass sie nicht mit Kontext angereichert werden kann, wie im Kapitel Ästhetik beschreiben. Eine einfache Flächengrafik kann durch geschickte Gestaltung so ein Thema ausdrücken.
Mit der Idee vom mappen von Dimensionen auf Visuelle Variabeln, lassen sich aber auch sehr komplexe, neuartige Visualisierungen erstellen, wie in diesem Beispiel der New York Times. Hier braucht es viel Erklärungsarbeit, um die Leser innen und Leser an die Visualisierung heranzuführen. In manchen Fällen lohnt sich das jedoch durchaus. Das Erfolgserlebnis die Grafik und die komplexen Zusammenhänge, die sie zeigt zu verstehen, führt dazu, dass sich die Leserinnen und Leser aktiv mit dem Thema auseinandersetzen. Am Ende steht ein noch persönlicheres und tieferes Verständnis der Daten.
Noch tiefer geht nur, wer die Datenvisualisierung selber gestaltet. Egal wie schlicht und verspielt das Resultat am Ende aussieht.
Werkzeuge und weiterführende Links
- Jonathan Corum, See, Think, Design, Produce
- Claus Wilke, Fundamentals of Data Visualization
- Raw mit Basisvisualisierungen
- Raw mit speziellen Visualisierungen
- Datawrapper bietet eine breite Auswahl an vorgefertigten Visualisierungen
- Ebenso Flourish
- Datylon ist ein Plugin für Illustrator, dass das Standard-Diagrammwerkzeug mehr als ersetzt.
- Lyra ermöglicht komplexere Mappings in einer grafischen Oberfläche
- Mit Vega und Vega-Lite können Programmierer schnell Visualisierungen erstellen
- d3 ist der Standard für komplexe, interaktive Datenvisualisierungen