Daten verstehen und kommunizieren

Donnerstag, 10:15 - 12, vonRoll B005, KSL, ILIAS

Author

Lilla Gurtner - lilla.gurtner@unibe.ch

KURSVORAUSSETZUNG: ein Laptop mit intstalliertem R, RStudio, tidyverse package, der zu jeder Sitzung mitgebracht werden kann. Unbedingt ab der ersten Sitzung mitbringen!!

Kursbeschreibung

Daten sind omnipräsent in unserem Alltag, ob wir sie selbst für Big-Tech erzeugen oder ob sie uns verkauft werden als Grund für politische Entscheidungen. Wie wichtig Kommunikation von Daten sein kann, wurde in der Covid-19-Pandemie mehr als deutlich und auch Erkenntnisse zum Klima-Wandel wollen effektiv und wirksam kommuniziert werden. Mit Daten umgehen zu können ist eine Kernkompetenz. In diesem Proseminar beleuchten wir die verschiedenen Schritte von den Rohdaten zur Kommunikation.

Die Studierenden werden - Hands-on Daten einlesen, explorieren, plotten - Lernen, welche Daten am Besten wie dargestellt werden - Grundsätzliches Wissen erlangen darüber, wie Menschen Daten verstehen / wie man Daten am Besten kommuniziert.

Proseminar Ablauf

In der ersten Hälfte des Semesters werden wir uns eingehend mit dem Umgang mit Daten beschäftigen. Wir lernen Daten in R einzulesen, zu plotten und zu verarbeiten. Danach widmen wir uns spezifischen Datentypen, wie man sie häufig in der psychologischen Forschung antrifft. In der Zweiten Hälfte beleuchten wir verstärkt das Kommunizieren von Daten: wie vermittelt man Zahlen? Was ist bei der Kommuikation von Unsicherheit und Risiken zu beachten? Was sagt die Kognitionspsychologie zu plots? Ausserdem bekommen wir einen Einblick in Storytelling mit Daten von Simon Schmid, selbstständiger Datenjournalist, u.A. tätig für die Republik.

Die Studierenden leiten die einzelnen Sitzungen. Man kann sich u.A. anhand der Unterlagen im Syllabus darauf vorbereiten. Bitte jeweils eine Woche vor dem Termin mit mir vorbesprechen! Wir werden als Kurs-Output gemeinsam ein R-Markdown dokument erstellen, in dem jede/r einen Beitrag leistet. Mehr dazu in der ersten Sitzung.

Proseminar Arbeit

Abgabe-Termin: 9. Januar 2023. Parallel zu den Sitzungen sollen die Studierenden an ihrer Proseminar-Arbeit schreiben. Ziel ist, eine Fragestellung/Hypotese zu formulieren und diese anhand von Daten zu beantworten, und zwar einmal so gut wie möglich und einmal so schlecht wie möglich. Die Seminararbeit besteht aus der Hypothese, der Beschreibung der Datenquelle, dem Code für die Datenverarbeitung und den Plots, der best- und schlechtestmöglichsten Antwort auf die Fragestellung. Die Studierenden erhalten Feedback zu ihrer Arbeit.

Bewertungskriterien für die Proseminar-Arbeit:

  • ist die Hypothese empirisch überprüfbar? Ist sie falsifizierbar?

  • Sind die Datensets geeignet, um die Hypothese zu beantworten? Ist die Wahl der Datensets begründet?

  • Ist der Code für die Analyse durchgehend kommentiert?

  • Die Antwort: jeweils max 1 A4 Seite für die state-of-the-art summary und die worst-case-summary. Die Summary richtet sich an ein Layenpublikum.

  • Wird begründet, wie Zahlen in der Summary berichtet werden, sowie in den verwendeten Plots die Wahl der Farben, Achsen, Beschriftunden, geoms etc.?

Benotung/Bewertung

Das Proseminar ist pass-or-fail. Die Studierenden bestehen, wenn sie die Sitzung, für die sie verantwortlich sind, gut vorbereiten und halten, ihren Beitrag zum gemeinsamen Kurs-Output leisten, die Proseminar-Arbeit bis am 9. Januar abgegeben haben und diese die Bewertungskriterien erfüllt.

Sitzungen

Woche 01, 09/22: Organisation, Motivation

Praxis-Teil: StackOverflow, iris data-set, minmal reproducable example, RMarkdown, Folder Structure (Wilson et al. 2017)

Woche 02, 09/29: Was können wir aus Daten (nicht) lernen?

Verantwortlich: Susanne
Literatur: Jones (2019), Kapitel 2
Praxis-Teil: Daten online finden und in R einlesen (read_csv etc), load directly from code!

Woche 03, 10/06: Daten-Strukturen

Verantwortlich: Marija
Literatur: Wickham (2014)
Praxis-Teil: Tidy data: pivot_wider, pivot_longer, mutate

Woche 04, 10/13: Daten verarbeiten: was macht Sinn?

Heute müssen die Fragestellungen abgegeben werden!

Verantwortlich: Sara
Literatur: Jones (2019), Kapitel 3
Praxis-Teil: Tidy data2: unite, join, group_by, summarize

Woche 05, 10/20: Wahrnehmung und Graphiken

Verantwortlich: Erich, Mona
Literatur: Healey and Enns (2012) (Teil 1, 2, 5); 39 studies on human perception: (bitte auslassen: treemaps, other visualisations, pictographs and drawings, audiencees, interactive elements)
Praxis-Teil: ggplot

Woche 06, 10/27: Wahrnehmung und Graphiken II

Verantwortlich: Joy
Literatur: Franconeri et al. (2021) (bitte auslassen: “visually communicating uncertaninty and risk”)
Praxis-Teil: Change over time (Entwicklungspsychologie, Klimawandel)

Woche 07, 11/03: Numeracy I

Heute müssen müssen die Datensets feststehen, incl. der Operationalisierung.

Verantwortlich: Lino
Literatur: Peters (2020), Kapitel 1,2
Praxis-Teil: Verteilungen von Daten (rt-data, Einkommen, mean vs median)

Woche 08, 11/10: Numeracy II

Verantwortlich: Svenja
Literatur: Peters (2020), Kapitel 3: Reliance on Heuristics and concrete, easy-to-evaluate attributes
Praxis-Teil: Count Data (accuracy), raincloud-plot

Woche 09, 11/17: Numeracy III

Verantwortlich: Leonie
Literatur: Peters (2020), Kapitel 4: Feelings and Frames
Praxis-Teil: Die eigenen Daten verarbeiten

Woche 10, 11/24: Communicating Numbers

Verantwortlich: Bänz
Literatur: Peters (2020), Kapitel 16; Heath and Starr (2022), Appendix: p. 136
Praxis-Teil: Die eigenen Daten verarbeiten

Woche 11, 12/01: Unsicherheit und Wahrscheinlichkeit (Kognitionspsychologie)

Verantwortlich: Melanie, Benedikt
Literatur: Van Der Bles et al. (2019)
Praxis-Teil: Die eigenen Daten verarbeiten

Woche 12, 12/08: Storytelling mit Daten, Besuch von Simon Schmid

Woche 13, 12/15: Unsicherheit Darstellen

Verantwortlich: Remo
Literatur: Padilla, Kay, and Hullman (2021); Franconeri et al. (2021) (nur: “visually communicating uncertaninty and risk”)
Praxis-Teil: Die eigenen Daten verarbeiten

Woche 14, 12/22: Wrap-up, Fragen, Buffer

References

Franconeri, Steven L., Lace M. Padilla, Priti Shah, Jeffrey M. Zacks, and Jessica Hullman. 2021. “The Science of Visual Data Communication: What Works.” Psychological Science in the Public Interest 22 (3): 110–61. https://doi.org/10.1177/15291006211051956.
Healey, Christopher, and James Enns. 2012. “Attention and Visual Memory in Visualization and Computer Graphics.” IEEE Transactions on Visualization and Computer Graphics 18 (7): 1170–88. https://doi.org/10.1109/TVCG.2011.127.
Heath, Chip, and Karla Starr. 2022. Making Numbers Count: The Art and Science of Communicating Numbers. New York, NY: Avid Reader Press.
Jones, Ben. 2019. Avoiding Data Pitfalls. https://doi.org/10.1002/9781119278207.
Padilla, Lace, Matthew Kay, and Jessica Hullman. 2021. “Uncertainty Visualization.” Wiley StatsRef: Statistics Reference Online, 1–18. https://doi.org/10.1002/9781118445112.stat08296.
Peters, Ellen. 2020. Innumeracy in the Wild: Misunderstanding and Misusing Numbers. New York, NY: Oxford University Press.
Van Der Bles, Anne Marthe, Sander Van Der Linden, Alexandra L. J. Freeman, James Mitchell, Ana B. Galvao, Lisa Zaval, and David J. Spiegelhalter. 2019. Communicating Uncertainty about Facts, Numbers and Science. Royal Society Open Science. Vol. 6. 5. https://doi.org/10.1098/rsos.181870.
Wickham, Hadley. 2014. “Tiday Data.” Journal of Statistical Software 59 (10): 1–23. http://www.jstatsoft.org/.
Wilson, Greg, Jennifer Bryan, Karen Cranston, Justin Kitzes, Lex Nederbragt, and Tracy K Teal. 2017. “Good Enough Practices in Scientific Computing.” PLoS Computational Biology 13 (6): 1–21. https://doi.org/10.1371/journal.pcbi.1005510.