The Story Hunt: Das waren die Workshops!

CC-BY 3.0, Simon Jockers, Foto: Leonard Wolf

Morgen startet "The Story Hunt" - unsere Data Expedition, bei der wir ein Wochenende lang gemeinsam mit Journalist/innen, Daten-Aktivist/innen, Vertreter/innen aus NGOs und Designer/innen die Finanzströme der EU genauer unter die Lupe nehmen. Zur Vorbereitung darauf haben wir in den letzten Wochen verschiedene Workshops zu Daten-Themen gegeben und uns mit dem Finden, Säubern, Analysieren und Visualisieren von Daten beschäftigt. Hier ein kleiner Überblick zu allen Sessions:

#1 Getting Started

Im ersten Workshop ging es um die Frage, was gute datengetriebene Projekte ausmacht und was sie gemeinsam haben. Dazu stellten wir zunächst die Data Pipeline vor - eine Methode, mit der sich datenbasierte Projekte gut strukturieren lassen. Das Tool Github eignet sich besonders gut, um gemeinsam an den einzelnen Schritten der Data Pipeline zu arbeiten. Außerdem gab es eine kurze Einführung in den Europäischen Struktur- und Investitionsfond (ESIF). Besonders toll: Datenjournalist Simon Jockers von Correctiv sprach über seine Daten-Erfahrungen und zeigte einige gute Beispiele für journalistische Datenprojekte.

#2 Asking Questions and Finding Data

Gute Informationen und spannende Datensätze zu finden, ist einer der ersten Schritte in einem datenbasierten Projekt. Im 2. Workshop haben wir uns daher auf die Suche nach guten Datenquellen gemacht. Daten mit dem Fokus EU gibt es z.B. auf der Plattform subsidystories.eu, die über Subventionsleistungen informiert. Weitere gute Quellen für journalistische Recherchen sind auch Lobbyfacts.eu, Open Corporates oder das Investigative Dashboard von OCCRP. Wie man Tabellen und Listen aus Webseiten automatisch in Google Sheets laden kann, zeigten wir im zweiten Teil des Workshops. Als Beispiel nutzten wir eine Liste von EU-Politikern, die nach ihrer Amtszeit Jobs in der Industrie oder Lobbyverbänden annahmen.

#3 Scraping and Cleaning Data

Daten liegen häufig nicht in einem maschinenlesbarem Format vor, was die Weiternutzung erheblich erschwert. In diesem Workshop haben wir uns daher angeschaut, wie sich mühselige Copy-Past Arbeiten vermeiden lassen. Dazu nutzten wir das Webscraper Plugin für den Google-Chrome Browser. Da die Daten für die Analyse in den meisten Fällen erst transformiert und gesäubert werden müssen, stellten wir das Online-Tool Open Refine vor. Mit dem Programm lassen sich Daten einfach bereinigen und mit neuen Informationen anreichern. Einen Überblick über die Funktionen des Tools gibt es hier.

#4 Analytics: Intro into Basic Statistics & Spreadsheets

Finanzdaten sind häufig schwer greifbar, können aber spannende Geschichten enthalten, wie die Panama Paper oder die LuxLeaks zeigen. Wichtig dafür ist jedoch ein gutes Grundlagenwissen über Daten. Deshalb gab uns Verena Pflieger vom INWT Statistics zunächst eine kurze Einführung zu statistischen Grundlagen, z.B. über die Bedeutung von Korrelationen (Ein Spiel, dass dieses Prinzip ganz gut erklärt, ist GuesstheCorrelation). Im zweiten Teil nahmen wir uns die Europäischen Struktur- und Investitionsfonds (ESIF) genauer vor und analysierten in Google Sheets z.B., welcher EU-Mitgliedstaat die höchsten Zahlungen enthält. Interessant: Deutschland ist einer der größten Geldempfänger, gemessen an der allgemeinen Wirtschaftsleistung fällt der Anteil aber vergleichend gering aus.

#5 Visualising Data

Um mit Daten eine Geschichte erzählen zu können, ist es wichtig, sie ansprechend zu visualisieren. Dabei gibt es einiges zu beachten. In unserem letzten Workshop stellte uns Datenvisualisierungs-Expertin Lisa C. Rost anhand von Beispielen die Do’s and Dont’s der grafischen Datenaufbereitung vor und gab uns eine Einführung in Online-Tools RAWGraphs und Datawrapper. Gemeinsam visualisierten wir im Anschluss die zuvor genutzten Finanzdaten. Besonders spannend war eine Kartenvisualisierung, die zeigte, welches Land die höchste Prozentzahl des Brutto-Inland-Produkts (BIP) in EU-Subventionen bekommt. Polen liegt hier mit 3% weit vorne.

Materialien

Alle Präsentationen und Materialien zu den Workshops gibt es auf unserem Github Repro. :)