2019 legte Claus O. Wilke mit Fundamentals of Data Visualization ein sehr lesenswertes Buch über Datenvisualisierung vor, das einige Vorzüge gegenüber vergleichbaren Werken bietet:
- Wer es gerne physisch in Papierform in der Hand hält, kann es selbstverständlich käuflich erwerben. Es steht jedoch auch kostenlos online im Volltext zur Verfügung. Damit folgt es dem Beispiel von Büchern aus dem RStudio / Posit-Umfeld wie R for Data Science (Hadley Wickham / Garrett Grolemund), Advanced R (Wickham), Hands-On Programming with R (Grolemund), ggplot2: Elegant Graphics for Data Analysis (Wickham), R Packages (Wickham / Jenny Bryan), oder Happy Git and GitHub for the UseR (Jenny Bryan).
- Es schafft den seltenen Spagat, einerseits software-unabhängig und somit breit nutzbar zu sein, andererseits legt der Autor Wert auf Reproduzierbarkeit von Grafiken. Alle Grafiken im Buch wurden mit R und ggplot2 erstellt, das Buch enthält zwar keinen R-Code, der Quellcode steht jedoch auf Github zur Verfügung. Ein tolles Beispiel für gelebtes Open Source!
Über den Autor: Claus Wilke
Claus Wilke war bereits vor Veröffentlichung dieses oft zitierten Buches in der R Community bekannt, vor allem als Entwickler von R-Paketen wie cowplot (zur Anordnung mehrerer Diagramme; der Name bezieht sich nicht auf Kuh, sondern auf die Anfangsbuchstaben von Claus O. Wilke; es war zunächst zum internen Gebrauch gedacht; heute dürfte Thomas Pedersen’s patchwork bekannter sein); ggridges für sog. Ridge- bzw. Ridgeline-Plots, sowie ggtext für verbesserte, flexiblere Text-Darstellung in ggplot2-Diagrammen, u. a. mit der Möglichkeit, Bilder oder Markdown-Formatierungen zur Achsenbeschriftung einzubeziehen. Claus Wilke arbeitet an der University of Texas at Austin.
Arten von Visualisierungen in Fundamentals of Data Visualization
Bevor es an konkrete Diagrammbeispiele und -typen geht, legt Claus Wilke einige Grundlagen der Datenvisualisierung dar, die sich an der Grammatik der grafischen Darstellung (Grammar of Graphics) orientieren, wie sie von Leland Wilkinson beschrieben wurde:
- die Zuordnung von Daten zu Ästhetiken
- Koordinatensysteme und Achsen
- Zur Verwendung von Farbskalen
Zum Aufbau von Grafiken in Schichten in der Grammatik der grafischen Darstellung vergleiche die Beiträge ggplot2: Einführung in die drei Basisschichten – Daten, Ästhetiken, Geometrien sowie ggplot2: Die vier fortgeschrittenen Schichten.
Das sehr gut strukturierte Werk gibt zunächst einen Überblick über Arten von Visualisierungen, bevor es tiefer ins Detail geht:
- Darstellung von Häufigkeiten
- Verteilungen: Histogramme, Dichte-Diagramme, Q-Q-Plots, viele Verteilungen auf einmal visualisieren
- Verhältnisse und geschachtelte / genistete Verhältnisse (nested proportions)
- Zusammenhänge zwischen zwei oder mehr quantitativen Variablen
- Zeitreihen und andere Funktionen einer unabhängigen Variable
- Darstellung von Trends
- Geodaten
- Darstellung von Unsicherheit
Designprinzipien in Fundamentals of Data Visualization
Nach diesen konkreten Diagrammarten geht es um einige Designprinzipien, unter anderem:
- proportional ink – „proportionale Tinte“: Die Größen schattierter Flächen müssen proportional zu den Datenwerten sein, die sie repräsentieren
- Umgang mit overplotting – überlappenden Datenpunkten, z. B. jitter (leichte zufällige Verschiebung von Datenpunkten) und partielle Transparenz
- Fallen beim Umgang mit Farbe
- redundante Codierung (redundant coding): Informationen mit mehreren Ästhetiken abbilden, um die Lesbarkeit zu erleichtern
- gute Balance finden zwischen Daten und Kontext
Was mir gut an Fundamentals of Data Visualization gefällt
- Die Einteilung von missglückten Visualisierungen in hässlich (ugly), schlecht (bad) und falsch (wrong) finde ich sehr hilfreich. Man kann viel aus schlechten (im weiteren Sinne) Beispielen lernen – es tut gut, nicht nur „Bilderbuch-Beispiele“ zu sehen.
- Dass 3D-Grafiken oft problematisch sein können, war mir bewusst. Claus Wilkes Beispiele dafür fand ich besonders anschaulich: Tortendiagramme aus verschiedenen 3D-Perspektiven, die die gleichen Daten darstellen, aber unterschiedliche optische Eindrücke hervorrufen.
- Sehr hilfreich sind auch die klaren Richtlinien, wie Tabellen aussehen sollten. Bemerkenswert dabei ist, dass sie in der Praxis sehr häufig missachtet werden – oft deshalb, weil Software wie Microsoft Word Voreinstellungen enthält, die Design-Prinzipien verletzen.
- Hilfreich auch die Abschnitte zu gängigen Dateiformaten für Grafiken mit ihren Eigenschaften und Vor- und Nachteilen sowie die gut kommentierte und gegliederte Literaturauswahl.
Fazit zu Fundamentals of Data Visualization
Ein sehr lesenswertes Buch, auch als Nachschlagewerk. Besonders nützlich dadurch, dass es nicht an eine bestimmte Software gebunden ist; dennoch ist der R-Code für die ggplot2-Grafiken via github zugänglich. Klare Empfehlung, zumal man mit dem kostenlosen Online-Zugang zum Volltext kein Risiko eingeht!
Ergänzt sich bestens mit dem ebenfalls sehr empfehlenswerten Werk Storytelling with Data von Cole Nussbaumer Knaflic.