Datenvisualisierung für Gestalter

Unser visuelles System analysiert Bilder in Sekundenbruchteilen, ohne dass wir darüber nachdenken müssten. Datenvisualisierung macht sich diese Fähigkeit zu nutze. Indem Zahlen durch die Grösse eines Kreises, durch die Intensität einer Farbe oder durch die Länge eines Balkens dargestellt werden. Dadurch macht Datenvisualisierung grosse Datenmengen schnell erfass- und vergleichbar.

Motivation

Unser visuelles System hat erstaunliche Fähigkeiten entwickelt, wenn es darum geht schnell gewisse Muster zu erkennen. Einige dieser Fähigkeiten ermöglichen es uns, komplexe statistische Zusammenhänge zu erfassen, ohne gross darüber nachzudenken. Die nachfolgende Grafik zeigt, wie einfach es uns fällt in Bildern Ausreisser, Mittelwerte, Gruppen und Entwicklungen zu erkennen.

Statistik im visuellen System

Übersetzt von Szafir et al., Four Types of Ensemble Encoding in Data Visualizations

Datenvisualisierung macht sich diese Fähigkeit zu Nutze, um grosse Zahlenmengen rasch erfassbar zu machen. Im Vergleich zu Tabellen sind Visualisierungen darum vor allem stark darin, Zusammenhänge zu vermitteln und Werte zu vergleichen. Tabellen dagegen sind ideal, wenn es darum geht Einzelwerte «nachzuschlagen». Mehr dazu unter Funktionen.

Ästhetik

Beispiele von Visualisierungen die mit ihrer Form ausdrücken, worum es geht. — Average UK Rainfall 1971–2000 – Fire plot – Die missglückte Bloomberg-Kampagne

Eine weitere Stärke von Visualisierungen ist, dass sie illustrative Elemente enthalten können. Das führt dazu, dass sich die Leserinnen und Leser besser an den Inhalt der Visualisierung erinnern. Die Visualisierung vermittelt dadurch auch das Thema, um das es geht.

Die erste Priorität, bleibt aber immer der Vergleich und die wahrheitsgetreue Darstellung der Informationen. Eine Visualisierung ohne Aussage wird nicht dadurch gut, dass man sie schön macht. Eine Visualisierung mit einer wichtigen Aussage bleibt dagegen auch im Gedächtnis, wenn sie schlicht ist.

Eine Kurve die den exponentiellen Anstieg der Corona-neuinfektionen im März 2020 zeigt — NZZ, 2020

Die Grundfrage, bei jeder Visualisierung lautet deshalb immer: «Was vergleiche ich womit?»

Wertetypen

Nicht alle Daten können auf die gleiche Art visualisiert werden. Wir unterscheiden deshalb vier Wertetypen:

Quantitative Werte sind, einfach gesagt, Zahlen. Zum Beispiel die Anzahl Apps auf einem Smartphone. Oder wie viele Millionen Präsidentschaftskandidaten in den USA für ihre Kampagne ausgeben.

Mit quantitativen Werten kann ich Rechnungen anstellen. Sie zum Beispiel in Prozentwerte umwandeln. Und ein quantitativer Wert ist nicht einfach grösser als ein anderer, er ist viel grösser, oder leicht grösser. Beides führt dazu, dass diese Art von Wert die mächtigste ist. Weil sie am meisten Information enthält.

Zeitliche Werte sind Zeitpunkte. Zum Beispiel wann Sie morgens aufstehen. Oder Ihr Geburtsdatum.

Zeitpunkte und Daten lassen sich nicht nur in eine Ordnung bringen, sie haben, genau wie quantitative Werte, eine Distanz. Aber mit ihnen lassen sich nicht die genau gleichen Rechnungen anstellen.

Ordinale Werte sind solche die sich ordnen lassen. Sie enthalten dagegen keine Information darüber, wie gross die Distanz zwischen zwei Werten ist. Die Medaillen nach einer Tour de France-Etappe geben mir keine Information über den Vorsprung des Siegers zum Träger der Silbermedaille.

Kategorische Werte haben nicht einmal eine Reihenfolge. Eine Liste von Ländern kann ganz verschieden geordnet werden: alphabetisch, nach Grösse, nach Bevölkerung etc. Es gibt keine offensichtliche Reihenfolge.

Kategorische Werte sind damit von allen am wenigsten informativ. In der Visualisierung werden sie deshalb häufig angereichert, indem sie nach einem anderen Wert sortiert werden. Die Länder eben nach Grösse oder Bevölkerung.

Zwei Beispiele — Zwei Visualisierungen die verschiedenen Wertetypen darstellen. Ordinale Werte werden oft mit Farben dargestellt. Zeitliche Werte konventionell auf der horizontalen x-Achse. Die kategorischen Werte in der Grafik rechts, die Länder, wurden nach deren CO₂-Ausstoss sortiert. Quelle: NZZ

Daten betrachten

Wer Daten visualisiert ist in seinen Gestaltungsmöglichkeiten durch die Form der Daten eingeschränkt. Vor den ersten Ideenskizzen ist es darum nötig, die Daten systematisch zu betrachten. Beginnt die Gestaltung bevor die Daten systematisch betrachtet wurden, ist der Misserfolg fast garantiert. Immer gibt es einen unerwarteten Ausreisser oder eine seltsame Verteilung, die dann nicht in die Gestaltung passt.

Dieses Kapitel zeigt darum anhand der folgenden Beispieldaten zu den Olympischen Spielen, wie Daten betrachtet werden:

Jahr	Land	Grösse des Landes	Medaillen
2008	Japan	3	31
2008	Frankreich	2	70
2008	Deutschland	2	82
2008	Schweiz	1	6
2010	Japan	3	2
2010	Frankreich	2	1
2010	Deutschland	2	24
2010	Schweiz	1	9
2012	Japan	3	93
2012	Frankreich	2	90
2012	Deutschland	2	57
2012	Schweiz	1	1

Tabellarische Daten enthalten einzelne Datenpunkte in Zeilen – wie viele Medaillen ein Land in einem Jahr gewonnen hat und wie gross dieses Land ist. Die Spalten enthalten die Dimensionen, die für jeden Eintrag erfasst wurden – zu jedem Eintrag ist ein Jahr, ein Land, dessen Grösse und eine Anzahl Medaillen vorhanden. Eine Dimension enthält immer nur Werte eines Typs (siehe Wertetypen). So sollte in der Spalte mit den Ländern nicht plötzlich das Jahr 2016 auftauchen.

Tabellarische Daten bestehen aus Datenpunkten (Zeilen), Dimensionen (Spalten) und Werten (Einträgen). Spalten haben einen Wertetyp.

Der erste Schritt beim Betrachten der Daten ist, zu verstehen, welche Dimensionen vorhanden sind und welchen Wertetyp sie enthalten. Im vorliegenden Fall:

Zeitlich	Kategorisch	Ordinal	Quantitativ

Im nächsten Schritt werden die Werte in den Dimensionen, je nach Wertetyp unterschiedlich, betrachtet:

Zeitlich: Von wann bis wann reichen die Werte? Wie gross sind die zeitlichen Abstände? Im Beispiel reichen die Werte von 2008 bis 2014 mit einem Abstand von zwei Jahren.

Kategorisch: Welche und wie viele Kategorien gibt es? Gibt es für jede Kategorie gleich viele Einträge? In unserem Fall Japan, Frankreich, Deutschland und die Schweiz. Jedes Land kommt drei Mal vor.

Ordinal: Von wo bis wo reichen die Werte? Wie sind sie verteilt? Die Grössen bewegen sich zwischen 1 und 3. Der Wert 2 kommt doppelt so häufig vor, wie die anderen.

Quantitativ: Von wo bis wo reichen die Werte? Wie sind sie verteilt? Die Werte reichen von 1 bis 93 Medaillen. Die Verteilung zu eruieren ist etwas schwieriger. Deutlich wird, dass es relativ viele Werte unter 10 gibt. Aber deutlicher wird die Verteilung mit einem Histogramm

Die Verteilung der Werte in einer Dimension wird mit einem Histogramm schnell deutlich:

Das Histogramm zeigt die Verteilung der Medaillen, indem es sie in «Bins» mit einer Schrittgrösse von zehn sortiert.

Das Beispiel lässt sich hier mit dem Datensatz «Olympische Spiele» nachvollziehen.

Visuelle Variabeln

Damit aus Werten Bilder werden, müssen sie auf Visuelle Variabeln gemappt werden. Das heisst, für jede Dimension muss entschieden werden, wie sie dargestellt werden soll. Durch Farbe oder Grösse, durch die Position auf einer Achse oder unterschiedliche Formen wie Kreise oder Rechtecke:

Die gleichen Daten können ganz unterschiedlich visualisiert werden — Die gleichen Daten wurden drei Mal unterschiedlich gemappt. Daraus ergeben sich drei unterschiedliche Visualisierungen

Jede Datenvisualisierung funktioniert über solche Mappings. Wie aber das Beispiel oben zeigt, funktionieren nicht alle Konfigurationen gleich gut. Ein Grund dafür ist, dass unser Auge die Visuellen Variabeln unterschiedlich präzise wahrnehmen kann:

Effektivität von Visuellen Variabeln

Die Faustregel bei der Wahl der Visuellen Variabeln ist, dass mächtigere Wertetypen auf effektivere Visuelle Variabeln gemappt werden sollten.

Wenn eine Dimension auf eine Visuelle Variabel gemappt wurde, zum Beispiel die Länge eines Balkens, dann darf diese Balkenlänge nicht mehr beliebig verändert werden. Sie ist sozusagen blockiert. Gleichzeitig ist der Gestalter oder die Gestalterin weiterhin frei, alle anderen Visuellen Variabeln zu verändern. Die Farbe, Position oder sogar die Form des Balkens sind so weiterhin frei für die Gestaltung und das Herstellen von Kontext. Siehe Motivation.

Beschriftung

Alle gemappten Dimensionen müssen beschriftet sein. Das ist die allererste Regel bei der Beschriftung von Visualisierungen. Dabei gibt es drei Möglichkeiten, die Dimensionen zu beschriften. Wenn genug Platz vorhanden ist, ist die direkte Beschriftung am effektivsten. Danach die Achsenbeschriftung und zuletzt die Legende.

Lesebeispiele

Eine oft übersehene Art der direkten Beschriftung ist das Lesebeispiel. Lesebeispiele erklären dem Leser oder der Leserin anhand eines einzelnen Datenpunktes, wie die Visualisierung zu verstehen ist. Aber auch, wenn ein Lesebeispiel gemacht wird, sollte nicht auf die Achsenbeschriftungen verzichtet werden. Sie sind eine weitere Absicherung, dass die Grafik korrekt verstanden wurde.

Ein Scatterplot mit einem Lesebeispiel — Ohne das Lesebeispiel bräuchte es viel länger, um die Grafik korrekt zu interpretieren. Quelle: NZZ Visuals Styleguide

Im Allgemeinen ist es wünschenswert, den Leserinnen und Lesern in mehrfacher Hinsicht die Bestätigung zu geben, dass sie eine Visualisierung richtig interpretiert haben. So sollte der erste Eindruck schon dem entsprechen, was der Titel sagt. Und das Verständnis der Grafik sollte sich auch nach dem Studium der Achsen nicht grundlegend ändern.

Die Aussage des Titels ist dabei das, was im Gedächtnis haften bleibt. Steht er im Widerspruch zur Grafik, erinnern sich die Leserinnen und Leser doch an den Titel, auch wenn sie im Moment verunsichert sind.

Funktionen von Visualisierung

Bei der Entscheidung, welche Dimensionen auf welche Visuellen Variabeln gemappt werden sollen, ist auch die Funktion einer Visualisierung wichtig. Soll sie zeigen, welches Land am meisten Olympische Medaillen gewonnen hat? Oder welches Land am konstantesten Erfolge feierte? Oder soll die Visualisierung verdeutlichen, dass grössere Länder an der Olympiade tendenziell erfolgreicher sind? Je nach Funktion, bietet sich eine andere Form an. Die Form sollte so gewählt werden, dass die Hauptaussage der Visualisierung durch das visuelle System ohne grosse Mühe erfasst wird. Ein paar Beispiele für verschiedene Funktionen finden sich in der folgenden Auflistung:

Grössenvergleich

Beispiele:

Teil eines Ganzen

Beispiele:

Zeitverlauf

Beispiele:

Abweichung von einer Norm

Verteilung

Beispiele:

Zusammenhang zwischen zwei Werten

Die Typisierung basiert auf dem Visual Vocabulary der Financial Times und wurde von Anja Lemcke von der NZZ aufbereitet.

Viele der gezeigten Visualisierungen haben den Vorteil, dass sie geläufig sind und darum rasch verstanden werden. Eine einfache Visualisierung zu verwenden heisst aber nicht, dass sie nicht mit Kontext angereichert werden kann, wie im Kapitel Ästhetik beschreiben. Eine einfache Flächengrafik kann durch geschickte Gestaltung so ein Thema ausdrücken.

Mit der Idee vom mappen von Dimensionen auf Visuelle Variabeln, lassen sich aber auch sehr komplexe, neuartige Visualisierungen erstellen, wie in diesem Beispiel der New York Times. Hier braucht es viel Erklärungsarbeit, um die Leser innen und Leser an die Visualisierung heranzuführen. In manchen Fällen lohnt sich das jedoch durchaus. Das Erfolgserlebnis die Grafik und die komplexen Zusammenhänge, die sie zeigt zu verstehen, führt dazu, dass sich die Leserinnen und Leser aktiv mit dem Thema auseinandersetzen. Am Ende steht ein noch persönlicheres und tieferes Verständnis der Daten.

Noch tiefer geht nur, wer die Datenvisualisierung selber gestaltet. Egal wie schlicht und verspielt das Resultat am Ende aussieht.

Werkzeuge und weiterführende Links

Jonathan Corum, See, Think, Design, Produce
Claus Wilke, Fundamentals of Data Visualization

Raw mit Basisvisualisierungen
Raw mit speziellen Visualisierungen
Datawrapper bietet eine breite Auswahl an vorgefertigten Visualisierungen
Ebenso Flourish
Datylon ist ein Plugin für Illustrator, dass das Standard-Diagrammwerkzeug mehr als ersetzt.
Lyra ermöglicht komplexere Mappings in einer grafischen Oberfläche
Mit Vega und Vega-Lite können Programmierer schnell Visualisierungen erstellen
d3 ist der Standard für komplexe, interaktive Datenvisualisierungen