De Tuftiaanse theorieën van Edward Tufte

De kracht van een data visualisatie

Een bak cijfers vertalen naar een visuele weergave kan ervoor zorgen dat statistische data beter gecommuniceerd wordt. Grafieken zijn zoals Tufte (1997), een bekende auteur op het gebied van analytisch ontwerp, zegt ‘instruments for reasoning’. Voordat het zover is zullen echter eerst een paar stappen genomen moeten worden. Ervan uitgaande dat de bak met data al verzameld is moet er gekeken worden welke cijfers met elkaar in verband kunnen worden gebracht. Is er een ontwikkeling in tijd, zijn er verschillen, is er een stijgende of dalende lijn in te ontdekken etcetra. Door deze data te rangschikken en te ordenen kunnen deze patronen zichtbaar gemaakt worden. Ontwikkelingen, schommelingen hierin, de frequentie hiervan, onderlinge relaties en een totaaloverzicht kunnen in beeld gebracht worden. Data moet, volgens Tufte (1997), zo in beeld gebracht worden dat

  • vergelijkingen (het vergelijken van 2 of meer variabelen),
  • verspreidingen (hoe vaak verschillende waardes van één of meer variabelen voorkomen),
  • samenstellingen,
  • ontwikkelingen (variabelen door de tijd heen) en
  • onderliggende relaties zichtbaar gemaakt kunnen worden.

Dr. Andrew V. Abela (2006), een professor in marketing en marktonderzoek aan de Catholic University of America in Washington, gaat uit van 4 mogelijkheden: vergelijkingen, onderliggende relaties, verspreidingen en samenstellingen. Visueel is dit te zien in zijne ‘Chart Suggestions–A Thought-Starter‘. ChartSuggestions.jpg Continue reading De Tuftiaanse theorieën van Edward Tufte

De geschiedenis van data visualisatie in vogelvlucht

Dit artikel is een kort overzicht van een paar hoogtepunten uit de geschiedenis. Het is een samenvatting van alle artikelen die al eerder door mij gepubliceerd zijn op deze blog. En is bedoeld als een summier maar compleet overzicht met onderstaande conclusie als resultaat:

Conclusie

Wanneer je de ontwikkelingen in datavisualisatie vergelijkt met die van de maatschappij zie je dat er vooral grote ontwikkelingen op het gebied van data visualisatie plaats vonden vlak na grote overgangen in de maatschappij.
Vlak na het industriële tijdperk bijvoorbeeld, eind 18e – begin 19e eeuw, was er een enorme opbloei van data visualisatie.

De theorie van grafische data visualisatie

vdqi_bookcover.gif Als het goed is wordt dit het laatste artikel dat zijn oorsprong heeft in Tufte’s klassieke boek ‘The visual display of quantitative information‘. Niet zonder spijt want het is een prachtig gebonden boek van mooie lithografische kwaliteit vol zorgvuldig gerangschikte afbeeldingen. En de grondigheid waarmee hij zijn kennis met voorbeelden omschrijft en laat zien is zeer aangenaam.

… Theory and practice in the design of data graphics, 250 illustrations of the best (and a few of the worst) statistical graphics, with detailed analysis of how to display data for precise, effective, quick analysis. …

Tufte verdeeld het onderdeel ‘theorie van grafische data visualisatie’ in 5 onderdelen.

  1. Data-inkt en grafische restyling.
  2. Chart-junk: vibraties, grids en eenden.
  3. Data-inkt maximalisatie en grafische vormgeving.
  4. Multifunctionele grafische elementen.
  5. Data dichtheid en kleine veelvouden.
  6. Esthetiek en techniek in grafische data visualisatie.

Continue reading De theorie van grafische data visualisatie

Encourage the eye

Tabellen zijn taaie kost, een rauwe opsomming van getallen. De visualisatie van de gegevens moeten ‘het oog aanmoedigen‘ om deze data te interpreteren’. Tufte zegt dat grafische weergaven meerder functies hebben. Ze moeten

  • de data tonen;
  • voorkomen dat data vervormd wordt weergegeven of geïnterpreteerd;
  • een grote hoeveelheid cijfers op een beperkt oppervlak weergeven;
  • een coherent geheel maken van de omvangrijke data sets;
  • het oog uitnodigen om de verschillende brokken data met elkaar te vergelijken;
  • de data op verschillende niveaus onthullen, van een breed overzicht tot in het kleinste detail;
  • een duidelijke doel dienen: beschrijving, exploratie, tabuleren of decoratie;
  • nauw verweven zijn met de statistische en verbale beschrijvingen van de data set.

Continue reading Encourage the eye

Conclusie

Uit voorgaande twee artikelen ‘Subjectieve bewijsvoering‘ en ‘De 4 grondbeginselen van een grafiek‘ blijkt dat wanneer de weergave van gegevens waar en onthullend moet zijn de logica van het ontwerp de logica van de analyse moet reflecteren. De juiste en rationele opeenvolging van oorzaak en gevolg moet zowel in het ontwerp als in de analyse van de data gelijk zijn. Tufte zegt hierover

Visual representation of evidence should be governed by principles of reasoning about quantitative evidence. For information displays, design reasoning must correspond to scientific reasoning. Clear and precise seeing becomes as one with clear and precise thinking.

Het principe van gecontroleerde vergelijkingen dicteert tegelijkertijd de constructie van de weergave van gegevens en schrijft voor hoe de inkt of de pixels van een grafiek zo geordend moeten worden dat context en vergelijkingen direct weerspiegeld worden. De kwaliteit van de vormgeving komt voort uit de intellectuele kwaliteit. Bovengenoemde tweeledige principes, nodig voor zowel het beredeneren van statistische bewijsvoering als voor het ontwerpen van statistische grafieken, omvatten

  1. het documenteren van bronnen en van de karakteristieken van de data,
  2. het doorlopend afdwingen van de meest geschikte vergelijkingen,
  3. het demonstreren van mechanismen van oorzaak en gevolg,
  4. deze mechanismen kwantitatief in beeld brengen,
  5. het herkennen van de inherent zijnde multivariate natuur van analytische problemen en
  6. het inspecteren en evalueren van alternatieve verklaringen.

Weergaven van informatie moeten, mits een correcte weerspiegeling van inhoud en kern van de zaak,

  • documentair,
  • de oorzaak insluitend en verklarend,
  • vergelijkend,
  • in hoeveelheden uitgedrukt,
  • multivariate [1] en
  • verklarend zijn.

Bron
Visual Explanations: Images and Quantities, Evidence and Narrative, Edward Tufte, Graphic Press, 1997. Bladzijde 53, Conclusion: Thinking and design.
[1] Defintie multivariate analyse
Verzamelnaam voor een aantal analysetechnieken die ontworpen zijn om de aard en de mate van samenhang tussen een groot aantal waarnemingen te beschrijven.
Meer algemene term: analyse, analysetechnieken. Meer specifieke term: factoranalyse. Rubriek: S24.2 wetenschappelijk onderzoek. Gevonden op thesauruszorgenwelzijn.nl

De 4 grondbeginselen van een grafiek

visex_bookcover.gif Op 28 januari 1986 explodeerde de Challenger door een lekkende O-ring. Onderzoek na de ramp liet zien dat dit veroorzaakt werd door een lekkende O-ring. Ingenieurs hadden de dag voor de lancering data overlegd aan de beslissingnemers dat hun advies moest onderstrepen, de dag van de lanchering zou te koud zijn om de Challenger te lanceren. Terwijl het Snow juist door de visualisatie lukte om iedereen te overtuigen ging het hier mis. Daar zijn zeker meerdere redenen dan alleen de visualisaties voor aan te wijzen. Edward Tufte concentreert zich in zijn boek ‘Visual Explanations: Images and Quantities, Evidence and Narrative‘ vooral op de visualisatie van de data tijdens het onderzoek wat volgde na de ramp.
Hieruit komen vier principes naar voren.

Continue reading De 4 grondbeginselen van een grafiek

Subjectieve bewijsvoering

De keuze voor een visualisatie optie bepaald de uiteindelijke interpretatie van de data. Neem bijvoorbeeld de kaart visualisatie van John Snow. Door het weergeven van de sterfgevallen door cholera op een kaart van London kon hij inzichtelijk maken dat een waterbron in Broad Street de mogelijke bron van besmetting was. Op zich een knap stukje werk want men had toendertijd geen inzicht in de manier waarop de ziekte werd overgebracht.

Continue reading Subjectieve bewijsvoering

De kracht van een data visualisatie

Een bak cijfers vertalen naar een visuele weergave kan ervoor zorgen dat statistische data beter gecommuniceerd wordt. Grafieken zijn zoals Tufte, een bekende auteur op het gebied van analytisch ontwerp, zegt ‘instruments for reasoning’ [1]. Voordat het zover is zullen echter eerst een paar stappen genomen moeten worden. Ervan uitgaande dat de bak met data al verzameld is moet er gekeken worden welke cijfers met elkaar in verband kunnen worden gebracht. Is er een ontwikkeling in tijd, zijn er verschillen, is er een stijgende of dalende lijn in te ontdekken etcetra. Door deze data te rangschikken en te ordenen kunnen deze patronen zichtbaar gemaakt worden. Ontwikkelingen, schommelingen hierin, de frequentie hiervan, onderlinge relaties en een totaaloverzicht kunnen in beeld gebracht worden.

Continue reading De kracht van een data visualisatie

Sociale geografie

De sociale betrokkenheid die zichtbaar werd bij Neurath, Arvtz, Reidemeister en Alma zien we ook terug op andere wetenschappelijke gebieden. Binnen de sociale wetenschappen ontwikkelde zich de sociale geografie. In feite werd de aardrijkskunde gecombineerd met de menswetenschappen. Het ging bijvoorbeeld niet meer alleen over de stad maar ook over de bewegingen van de stedelingen binnen deze ruimte. Het gaat tussen om de interactie tussen mens en ruimte. Aandachtsgebieden kunnen naast steden ook dorpen zijn. Ook verkeer, handel en toerisme hebben duidelijk een ruimtelijke dimensie. Landschapsvormen en aardoppervlakte worden buiten beschouwing gelaten.
Al eerder, in 1854, maakte de Engelse arts John Snow een kaart waarop alle sterfgevallen in een bepaalde buurt in London zichtbaar waren. Daaruit bleek dat een waterpomp in Broad Street de bron van besmetting was.
Snow-cholera-map-1.jpg
Picture 1.png De Universiteit van Amsterdam heeft in haar collectie een Cholerakaart van Amsterdam van J. Texeira de Mattos een iets latere datum (1866) waarin de verspreiding van cholera en het aantal sterfgevallen in 50 buurten van Amsterdam zichtbaar is gemaakt. [Ga naar de beeldbank van de UvA voor een zoomable versie].
In deze kaart hebben ze een cirkel als tijdseenheid gebruikt. Elke week staat voor één stuk. De zwarte cijfers geven het totaal van de bevolking in die wijk in mei 1866 aan en de verhouding sterfgetallen per 1000 inwoners.
cholera_3.gif legenda_cholera.gif
Een veel recenter voorbeeld is het aantal moskeeën per plaats in de provincies Noord-Holland en Flevoland (2005) van Nijeholt [1].
601px-Noord_holland_moskeeën_figuratief.png
Kaart van de agglomeratie Amsterdam, bestaand en ontworpen, ca. 1960. Bron: Collecties. Universiteit van Amsterdam.
img0045.gif
Bronnen
1. Source: Handboek Geo-visualisatie, author: Nijeholt. Source of the data: ((CBS-data according to ‘De Bosatlas’) according to the ‘NRC’): Magazine ‘M’ (attachment of the NRC-Handelsblad dd december 2007, pag. 55. Subject: ‘Wij staan op de kaart’.)
2. Beelddatabank Kaarten & atlassen. UvA.
3. Kaarten, atlassen en globes: collectie in vogelvlucht. UvA.
5. Van Taarten en balken. Kerstnummer Grafisch Nederland 1996.

Quételet, grondlegger van de sociale statistiek

Op het moment dat de maatschappij overging van het handmatig vervaardigen van goederen naar het machinaal vervaardigen en de industriële revolutie een feit was werd het voor landen essentieel om meer inzicht te krijgen in de cijfers omtrent de bevolking. Het is een tijd waarin de ontwikkelingen enorm snel gaan.

Rond 1795 vond daarom in Nederland de eerste grote volkstelling plaats. In 1830 volgde de tweede volkstelling waarbij de hulp in was geroepen van Adolphe Quételet (1796-1874), een Belgisch astronoom en mathematicus.
In deze wetenschappelijk omgeving waren kansrekening en statistiek al helemaal ingeburgerd. Quételet was de eerste die deze wetenschap ook toepaste op de sociale omgeving. Hij paste de door hem ontwikkelde methoden van kansrekening toe op bevolkingsstatistieken. Door het bepalen van de gemiddelde mens is het eenvoudig om afwijkingen zoals bijvoorbeeld crimineel gedrag beter in kaart te signaleren [1].
Inzicht in de gemiddelde borstomvang van Schotse soldaten:
image.gif
Het begrip ‘gemiddelde mens’ wordt toegepast in zijn meest invloedrijke publicatie ‘Sur l’homme et le développement de ses facultés, ou Essai de physique sociale‘ uit 1835.
StatutConsulter.png
fIgMvW-StatutConsulter.png
SYxP2n-ConsulterElementNum.png
Daarnaast heeft Quételet bijgedragen aan de oprichting van de Centrale Commissie voor de Statistiek (184; na 1946: Hoge Raad voor de Statistiek) en van de Royal Statistical Society in 1835.
In dat jaar werd, mede dankzij Quételet, het 1e internationale Statistische Congres in Brussel gehouden. Toch zou het pas de 3e conferentie zijn waar de grafische weergave van statistische gegevens voor het eerst echt onder de aandacht werd gebracht. Daarbij ging het vooral om de vraag of de grafische methode wel wetenschappelijk verantwoord was.
Bronnen
1. Van Taarten en Balken. Kerstnummer Grafisch Nederland 1996.
2. Adolphe Quételet (1796-1874). FOD Economie, KMO, Middenstand en Energie. Geraadpleegd 16 april 2008.
3. Sur l’homme et le développement de ses facultés, ou Essai de physique sociale. A. Quételet. Paris : Bachelier, 1835. Online PDF.
4. Adolphe Quételet. From Wikipedia, the free encyclopedia. Geraadpleegd 16 april 2008.
5. International Statistical Institute.

Opleving van data visualisatie (1950 -1975)

Na een stille periode begin 20e eeuw zien we zo rond 1950 een opleving in de ontwikkelingen binnen de data visualisatie. Reden hiervoor was onder andere de ontwikkeling van FORTRAN (The IBM Mathematical FORmula TRANslating System, 1957) een hogere programmeertaal speciaal ontwikkeld voor wetenschappelijke doeleinden.
cover.gif Het werk van John TukeyThe future of data analysis‘ (1962) en ‘Semiology Graphique‘ van Jacques Bertin waren van grote invloed.
Tegen het einde van deze periode zien we een paar grote technische veranderingen die van grote invloed zijn op de data visualisaties zoals bijvoorbeeld nieuwe software paketten, nieuwe computertalen, de computermuis, kleurenmonitoren, scanners, inktjetprinters.
Ontwikkelingen op het gebied van data analyse zoals de ‘Exploratory Data Analysis‘ en de psychometrie zijn van grote invloed op de data visualisaties.
Gerelateerde link:
1950-1974: Re-birth of data visualization. Michael Friendly.
Exploratory Data Analysis

Continue reading Opleving van data visualisatie (1950 -1975)

Minard, een terugkerend element

Recentelijk heb ik me laten inspireren op het eerste Nederlandse Infographics Congres waar een paar goede presentaties een hele dag de moeite waard maakte. Met name John Grimwade (directeur Informatie Graphics bij Conde Nast’s Traveler en Portfolio magazines) en Harjit Kaura (graphic designer bij BBC News Interactive) hadden prikkelende verhalen. En daarbij was Grimwade een natuurlijk verteller wat het luisteren altijd enorm veraangenaamd. Hij begon zijn verhaal met een dreigend ‘dark ages of infographics’… en eindigde met de voor mij zo relevante nieuwe ontwikkelingen waarbij data visualisaties gevoed worden door live gegevens. In die hele tijdslijn welke liep via steentijd, hiëroglyfen, 12e eeuwse manuscripten, azteekse kalenders, Leonardo da Vinci, Playfair, Neuraths ISOTYPE, Nigel Holmes ontbrak natuurlijk niet de ‘March to Moscow’ van Minard. De, volgens Edward Tufte, ‘beste statistische grafiek ooit gemaakt’ (uit: The Visual Display of Quantitative Information).
Deze kaart, die berucht is om de hoeveelheid informatie (geografische locatie inclusief namen van steden en rivieren, tijd (alleen op de terugtocht), temperatuur (het onderste deel van de grafiek), route, richting van de troepen en het aantal (nog resterende) manschappen) die aangeboden wordt, uit 1869 laat de verliezen onder de manschappen (breedte van de banen), hun bewegingen (heen bovenste baan, terugtrekking onderste zwarte baan) en de buiten temperatuur tijdens de franse invasie naar Moskou (1812) zien.
Minard.png
Minard gebruikt hier een voor die tijd innovatief idee. De breedte van elementen is proportioneel en is daardoor direct te interpreteren. Dit is goed te zien in een eerdere grafiek, de Tableau Graphique, van hem uit 1844. Hierin past hij ook een ander nieuw concept (het gebruik van delen in een staafdiagram) toe. Volgens Michael Friendly (1994) is dit de voorloper van de moderne mozaïek plot [1].
tableau_graphique.jpg
Deze grafiek laat het transport van commerciële goederen door het kanaal van Cahlon naar Dijon zien. De hoogte van een staaf geven de totale kosten van transport weer. Elke staaf is gesplitst naar type product waarbij elk vlak een type product is. Je kunt direct zien welke producten de hoogste kosten van transport hebben. De plaatsen waar aangelegd kan worden zijn verdeeld naar afstand. Elke staaf heeft dus zijn eigen variabele breedte. Hoe breder de staaf hoe groter de afstand. [1, 2]
Bronnen:
1. A brief history of data visualisation. Michale Friendly. 2006.
2. Charles Joseph Minard, “Graphic Tables and Figurative Maps”. Edward Tufte.

Opkomst statistische visualisaties en thematische plattegronden (1800 – 1850)

In het begin van de 19e eeuw is er een enorme toename van statistische visualisaties en thematische plattegronden. Alle vormen van data visualisaties die we nu toepassen zoals taartdiagrammen, staafdiagrammen, histogrammen, lijngrafieken, puntdiagrammen, kaartgrafieken, histogrammen en puntenwolkgrafieken vonden rond die tijd hun oorsprong. De thematische cartografie varieerde de afbeeldingen van eenvoudige kaarten tot uitgebreide atlassen. De onderwerpen werden steeds breder (economisch, sociaal, medisch, fysiek, moreel etcetera).
De eerste choropleth kaart, dat is een kaart waarin kwantitatieve ruimtelijke gegevens met behulp van de arcering of het kleuren van bepaalde gebieden of percelen wordt weergegeven, is waarschijnlijk de ‘Carte de la France obscure et la France éclairée’ van Charles Dupin (1826). (Bron: A brief history of data visualisation. Michael Friendly. 2006.)
Hij gebruikte hierin verschillende arceringen en zwarte en witte vlakken om de verspreiding het analfabetisme in Frankrijk weer te geven. Het ongeletterdheid is in de zwarte gebieden het hoogst.
dupin2.gif

Continue reading Opkomst statistische visualisaties en thematische plattegronden (1800 – 1850)

Mijlpaal in de data visualisatie

William Playfair (1759-1823) is een van de grondleggers geweest van de lijngrafieken, staaf- en taartdiagrammen die we nu nog steeds gebruiken om statische data weer te geven. Wat je ziet is dat hij vooral eenvoudige visualisaties maakte. Het zijn vooral vergelijkingen. Er wordt geen inzicht gegeven in wat er zou gebeuren als er data zou wijzigen.
first-pie-chart.jpg

Bovenstaande figuur laat in de linkeras en -lijn per cirkel de bevolking en in de rechteras en -lijn per cirkel de belasting zien. De uitvergroting hieronder laat dit beter zien. (Bron: Florence Nightingale’s Statistical Diagrams. Hugh Small.) De bedoeling is dat de helling die deze linker- en rechterlijn met elkaar verbindt de hoogte van belasting direct zichtbaar maakt. Alleen wordt de helling in deze afbeelding ook bepaald door de diameter van de cirkel. Het is in ieder geval wel zichtbaar dat de helling behorende bij ‘Britain and Ireland’ de andere kant op gaat. In de huidige statistische visualisaties is het een regel om nooit twee verticale assen voor verschillende waardes (bevolking en belasting) te gebruiken.
small6.jpg
In een andere afbeelding wordt het nog duidelijker hoe Playfair het gebruik van grafische vormen voor zich zag. Hij gebruikt hierin drie parallelle tijdslijnen om de prijs van graan, de wekelijkse lonen en de regerende koning over een tijdsspanne van 250 jaar (1565 tot 1820) in beeld te brengen. Zijn doelstelling was het zichtbaar maken dat arbeiders erop vooruitgegaan waren in deze periode.
playfair2.gif

Continue reading Mijlpaal in de data visualisatie