Schuldaten

Schule ist weit mehr als nur Unterricht. Potenziale, Persönlichkeit und das Engagement für die Gesellschaft entwickeln sich auch außerhalb des Regelunterrichts. Doch gut zugängliche Informationen zu allen Schulen in Deutschland, ihren Partnerschaften und Aktivitäten sind nur spärlich vorhanden und weit verstreut. Mit diesem Problem haben wir uns in unserem Datenprojekt jedeschule.de beschäftigt und gemeinsam mit unserem Kooperationspartner BildungsCent e.V. Informationen über 30.000 allgemeinbildende Schulen in Deutschland aufbereitet.

In dieser Lernsektion wollen wir euch anhand unserer Erkenntnisse zeigen, wie man Schuldaten finden, analysieren und visualisieren kann - und wo es Probleme gibt. Dabei arbeiten wir mit der Data Pipeline, einer Methode, mit der sich datengetriebene Projekte strukturiert umsetzen lassen.

datapipeline

Fragen stellen

Jedes datengetriebene Projekt startet mit einer oder mehreren Fragestellungen, die mit Hilfe der Analyse beantwortet werden sollen. Was einfach klingt, wird schnell zur Herausforderung, denn die Fragen müssen nicht nur möglichst konkret, sondern auch im Rahmen der eigenen Möglichkeiten und Ressourcen umsetzbar sein. Eine geeignete Frage findet sich daher häufig erst nach einem längeren Prozess von Recherchen und Überlegungen, die nach und nach konkreter werden.

Schuldaten

So erging es uns auch bei unserem Schuldaten-Projekt JedeSchule.de, das wir zusammen mit unserem Partner BildungsCent e.V. umgesetzt haben. In den ersten gemeinsamen Planungstreffen ging es für uns zunächst einmal darum das System Schule besser zu verstehen und die Bedürfnisse von BildungsCent zu identifizieren: Anhand von Daten zeigen, dass Schule nicht nur Unterricht bedeutet, sondern junge Menschen auf die Herausforderungen der Zukunft vorbereitet werden. Dieses Themenfeld ist jedoch sehr groß, daher versuchten wir uns auf einzelne relevante Aspekte zu konzentrieren und gezielte Fragen an die Thematik zu stellen: Was macht Schule neben dem Unterricht aus? Wo lernen Kinder sich zu beteiligen und die Gesellschaft mitzugestalten? Und wer hilft ihnen dabei?

Auf diese Weise rückten nicht nur die außerunterrichtlichen Schulaktivitäten und Partnerschaften in den Fokus unserer Arbeit, sondern es kam auch die Frage auf: Wo gibt es eigentlich überall Schulen in Deutschland? So entstand die Idee einer Karte, auf der alle allgemeinbildenden Schulen abgebildet und nach spezifischen Kategorien wie Schulaktivitäten, Partnerschaften und Ganztagsangeboten gesucht und gefiltert werden.

Daten finden & bekommen

Die erste Suche nach Daten beginnt häufig online mit einer Suchanfrage in Google und Co. Um hierbei spezifische Ergebnisse zu erhalten ist es jedoch wichtig, Suchmaschinen richtig zu nutzen und Suchoperatoren zu verwenden. In unserem Material findest du eine Anleitung und einige hilfreiche Tricks, um Suchmaschinen gezielter zu verwenden.

Bei der Recherche können auch Datenportale im Internet sehr hilfreich sein. Neben behördlichen Plattformen wie Destatis (Statistisches Bundesamt) oder Eurostat (Europäische Kommission) gibt es auch einige zivilgesellschaftliche Tools, die offene Daten bereitstellen:

  • kleineAnfragen.de sammelt kleine Anfragen der Landesparlamente und des Bundestages, die nach Themen gefiltert und per Email abonniert werden können.
  • FragdenStaat.de beruft sich auf das Informationsfreiheitsgesetz (IFG), das Behörden dazu verpflichtet, Auskunft über Informationen und Daten zu geben. Mit Hilfe der Seite lassen sich in wenigen Schritten IFG-Anfragen erstellen.
  • OffenerHaushalt gibt einen Überblick über die Haushalte der Kommunen in Deutschland und zeigt, wie viel Geld jeweils für Verwaltung, Schule, Umwelt, etc. ausgegeben wird.

Weitere Open Data-Portale findest du in dieser Übersicht:

Staatliche Informationen werden häufig in PDF-Formaten veröffentlicht. Das macht die Daten häufig leserlich, gleichzeitig erschwert es Programmen wie Libreoffice und Excel die Informationen strukturiert zu verarbeiten. Um Tabellen aus PDFs zu befreien, gibt es eine Reihe an Programmen, die PDF-Informationen in maschinenlesbare Formate (z. B. json, csv) umwandeln können. Eine Open Source-Lösung hierfür ist das Tool Tabula. Mit Tabula können PDF-Tabellen markiert, überprüft und umgewandelt werden. In unserem Lernmaterial erfährst du, wie Tabula funktioniert.

Die richtigen Daten zu finden, kann manchmal äußerst schwierig und frustrierend sein, denn nicht alle Informationen sind frei verfügbar oder aber die Daten fehlen komplett. In diesen Fällen hilft leider nur hartnäckig zu bleiben und weiter nachzufragen, Daten selbst zu erheben (wenn möglich) oder die Fragestellung noch einmal anzupassen: Gibt es vielleicht Informationen zu einzelnen oder anderen Aspekten meiner Frage? Wo gibt es noch Daten in dem Bereich, der mich interessiert?

Schuldaten

Für die Umsetzung unserer Fragen gab es viele Ideen und Ansätze. Der wichtigste Faktor war dabei die Datenlage: Wo gibt es überhaupt schulrelevante Informationen? Sind diese öffentlich zugänglich? Und wie können wir an die Daten gelangen? Dazu recherchierten wir in verschiedenen Quellen und bei öffentlichen Behörden. Ein entscheidender Aspekt war dabei: Bildungspolitik ist Ländersache. Daher lagen die meisten Informationen auf Landesebene vor, einige Daten waren zudem auf Bundesebene verfügbar. In dieser Liste haben wir einige relevante Informationsquellen gesammelt:

Bundesebene<ul><li>Bildungsfinanzbericht (Statistisches Bundesamt, 2017)</li><li>“Schulen auf einen Blick” (Statistisches Bundesamt, 2018)</li><li>Da es kein Bundesministerium für Schulbildung gibt, werden viele Entscheidungen an die Kultusministerkonferenz delegiert.</li></ul>

Landesebene<ul><li>Jedes Bundesland hat ein eigenes Schulgesetz. Einen Überblick darüber bietet die Kultusministerkonferenz.</li><li>Auf jedeschule.de stehen weitere Datensätze zum Thema Schule & Bildung, u. a. umfassende Informationen über Schulen aus den Schulverzeichnissen aller Bundesländer zur Verfügung.</li></ul>

Die Daten unterscheiden sich vor allem auf Länderebene sehr stark in ihrer Zugänglichkeit, Informationsmenge und Qualität. Die Bundesländer Sachsen-Anhalt und Saarland stellen beispielsweise ausschließlich Stammdaten von Schulen, wie Schulname, Adresse und Kontaktdaten zur Verfügung (Stand: 01.01.2017). Auch in Schleswig-Holstein gibt es seit dem 01. Januar 2017 nur noch diese Informationen. In Niedersachsen, Mecklenburg-Vorpommern, Hessen und Rheinland-Pfalz enthalten die Verzeichnisse zusätzlich noch u. a. die Schulnummer und Angaben zum Schultyp. Bayern, Baden-Württemberg, Hamburg und Nordrhein-Westfalen veröffentlichen darüber hinaus u. a. Zahlen über Schüler/innen und/oder Lehrende. Noch umfangreicher ist das Schulverzeichnis in Bremen, das Informationen über Ganztagsbetreuung, Ausstattung der Schulen und angebotene Sprachen bereitstellt. Die meisten Angaben werden jedoch in Berlin, Sachsen, Thüringen und Brandenburg gemacht: Hier sind zusätzlich auch außerunterrichtliche Aktivitäten und/oder Schulpartner aufgeführt.

Die Schulverzeichnisse unterscheiden sich auch nach Zugänglichkeit und Dateiformat. So stellte Hamburg im Jahr 2017 als einziges Bundesland die Informationen als Open Data zur Verfügung. In anderen Ländern wie Rheinland-Pfalz verlangten die zuständigen Behörden Geld, um die Schulverzeichnisse in einem maschinenlesbaren Format zu erhalten.

Daten säubern

Sobald alle Daten gesammelt sind, müssen sie vor der Analyse bereinigt werden. Für die Aufbereitung und alle weiteren Bearbeitungsschritte eignen sich Softwareprogramme wie Excel, Libre Office oder Open Office, die von NGOs häufig genutzt werden. Die Säuberung der Daten im Vorfeld der Analyse ist wichtig, da sich insbesondere in Datensätzen, die manuell eingetragene Daten enthalten oder aus bereits vorhandenen Datensätzen neu zusammengestellt wurden, schnell kleine Fehler einschleichen. Wenn Daten, z. B. in Excel oder Google Sheets zu übertragen sind, gibt unser Lernmaterial Hilfestellung und hält außerdem einige wichtige Tipps zur Säuberung von Daten bereit.

Ein weiteres Tool, mit dem sich Daten gut und schnell säubern lassen ist die Open Source-Anwendung Open Refine. Auch hier kannst du in unserem Lernmaterial nach Anleitungen und Tipps stöbern:

Schuldaten

Bei der Bereinigung unserer Schuldaten trat beispielsweise häufig das Problem auf, dass es mehrere Schulen mit demselben Namen gab, z.B. Pestalozzi-Schule oder Regenbogen-Schule. Da Bildung Ländersache ist, werden in Deutschland keine einheitlichen Schulnummern vergeben. Hier war es also notwendig, erneut zu recherchieren und den Schulen eine eindeutigere Identifikation in unserer Datenbank zu geben, um klare Unterscheidungen treffen zu können. Gelöst haben wir dieses Problem, indem wir die Schulstandorte als Identifikator hingezogen und so neue Identifikationsnummern generiert haben.

Eine weitere Herausforderung war, dass es bundesweit keine einheitlichen Schultypen gibt. So gibt es Schulformen, die nur in einem Bundesland auftreten, wie z. B. die Stadtteilschulen in Hamburg. Um die verschiedenen Informationen zu einem gemeinsamen Standard zusammenzufassen, haben wir versucht eine einheitliche Systematik der Schultypen zu entwerfen, soweit dies möglich war. Alle übrigens Fälle haben wir gesondert aufgeführt. Dieses Beispiel zeigt auch: Bei der Arbeit mit Daten müssen immer wieder kleinere und größere Entscheidungen getroffen werden, die die Analyse und Ergebnisse erheblich beeinträchtigen können. Jeder Schritt sollte an dieser Stelle daher genau reflektiert, abgewägt und transparent gemacht werden!

Daten analysieren

Sobald die Daten gesäubert vorliegen, kann die Analyse starten. Auch hierfür gibt es verschiedene Tools, einfache Analyse sind aber bereits in Excel mit Hilfe von Pivot-Tabellen möglich. Mit Hilfe dieser Tabellen lassen sich Zusammenhänge in den Daten, Muster, Trends und gegebenenfalls auch Ausreißer entdecken. Einige Hinweise wie man bei der Datenanalyse vorgehen kann findest du hier:

Schuldaten

Besonders interessant waren für uns die außerunterrichtlichen Schulaktivitäten. Diese Informationen werden zwar in den Schulverzeichnissen von Berlin und Sachsen mitgeliefert, liegen aber nur unsortiert für jede einzelne Schule vor. Um uns ein besseres Bild von den Angeboten aus den verschiedenen Bereichen zu machen, listeten wir in einer Excel-Tabelle zunächst alle Schulen mit ihren Aktivitäten und bildeten anhand der Angebote übergeordnete Kategorien, z. B. Umwelt, Sport, Musik/Tanz und Literatur/Medien. Anschließend ordneten wir die Aktivitäten jeder Schule den Kategorien zu. Auf diese Weise erhielten wir schnell einen Überblick zu den verschiedenen Angeboten und Zahlen darüber, wie oft Aktivitäten in diesen Kategorien von den Schulen angeboten werden.

So fanden wir beispielsweise heraus, dass es am meisten sportliche Aktivitäten im Schuljahr 2016/17 in Berlin gab (insgesamt 355 von 413), die wenigsten Angebote gab es dagegen im Bereich Berufsorientierung (insgesamt 34).

Daten visualisieren

Die neu gewonnenen Informationen können nun noch grafisch aufbereitet werden. Dies ist wichtig, da gute Datenvisualisierungen im besten Fall einen leichten Zugang zur Thematik bieten und eine höhere Überzeugungskraft besitzen als Daten in einer Tabelle. Eine gute Grafik unterstreicht dabei immer die Hauptaussagen eines Textes oder einer Datenanalyse. Dazu gibt es verschiedene Tools wie z. B. infogr.am., Rawgraph.io oder Datawrapper, mit denen interaktive Datenvisualisierungen online erstellt werden können. Dabei gibt es eine Vielzahl an Diagrammen, nicht jedes ist jedoch in jedem Fall gleich gut geeignet. Eine Übersicht zu allen Diagrammtypen mit ihren Vor- und Nachteilen bietet z. B. der Dataviz Catalogue. Einige Tipps für gute Datenvisualisierungen und Anleitungen für Tools haben wir in unserem Lernmaterial zusammengefasst:

Schuldaten

Verteilung der angebotenen Schulaktivitäten in Berlin

In unserem Beispiel mit den Schulaktivitäten von Berliner Schulen haben wir uns für die Darstellung in Kuchendiagrammen entschieden, weil sie anzeigen, wie sich eine Gesamtheit zusammensetzt. Diese Darstellungsweise macht zwei verschiedene Aspekte deutlich: Zum einen wie stark die einzelnen Bereiche an Schulen in Berlin ausgeprägt sind, z. B. dass sportliche Aktivitäten an der Mehrheit der Schulen (zu 86 %) angeboten werden. Zum anderen ermöglicht die Darstellung einen visuellen Vergleich von allen Bereichen. So zeigt sich nicht nur, dass sportliche Aktionen am häufigsten angeboten werden, sondern auch, dass Umwelt mit 19% und Berufsorientierung mit 5% weniger gefördert sind. Die Grafik verdeutlicht aber auch die große Vielfalt an außerunterrichtlichen Angeboten, die die Entwicklung und Förderung von Schüler/innen entscheidend mitgestaltet.

Mit Daten eine Geschichte erzählen

Die Arbeit mit den Daten endet jedoch noch nicht mit einer fertigen Visualisierung, denn diese benötigen häufig eine Erklärung und Kontextinformationen. Außerdem lassen sich mit Hilfe von Daten tolle Geschichten erzählen, die für die eigene Kampagnenarbeit effektiv genutzt werden können.

Die Möglichkeiten dazu sind vielfältig. Eine sinnvolle Leitfrage sollte sein, wie Datenvisualisierungen die Hauptaussagen einer Geschichte unterstützen können. Um schließlich Texte mit Datenvisualisierungen zu verbinden und auch interaktive Inhalte einzubetten, haben Journalist/innen des WDR gemeinsam mit Entwickler/innen das Open Source-Tool Pageflow entwickelt. Eine weiteres Tools ist Atavist. Die wichtigsten Funktionen des Tools haben wir in diesem Lernmaterial beschrieben.

Schuldaten

Für die Präsentation unserer Schuldaten haben wir uns dafür entschieden, eine eigene Webseite zu erstellen: https://jedeschule.de, auf der die Daten in ganz unterschiedlicher Weise präsentiert werden. Zum einen können Schulinformationen in einer Deutschlandkarte gesucht und gefiltert werden. Diese Funktion ist vor allem für Lehrende, Eltern, Schüler/innen, aber auch Politiker/innen und Akteur/innen aus der Zivilgesellschaft wichtig, um z. B. Schulen in der Umgebung zu finden und sich über Aktivitäten, Partner/innen und Ganztagsangebote zu informieren. Zum anderen werden übergeordnete Informationen über Schulaktivitäten und Partnerschaften sowohl grafisch wie textuell für Berlin und Sachsen aufbereitet. Außerdem veröffentlichten wir nach dem Launch der Webseite regelmäßig kurze Blogbeiträge, in denen wir uns noch einmal genauer mit der Datenlage in den einzelnen Bundesländern beschäftigten. Alle Ergebnisse wurden anschließend in einem Fazit übersichtlich präsentiert: https://datenschule.de/blog/2017/08/schuldaten-bundeslaender-check-fazit/