Glossar zu Open Data

Bei diesem Beitrag handelt es sich um ein Blog aus der Freitag-Community

Die Idee Open Data ist vergleichsweise jung und die Begriffe, die damit verbunden sind, werden längst nicht von allen gleich interpretiert. Der folgende Artikel ist der Versuch eines Glossars, er will Schlüsselworte rund um Standards, Datenformate und Datenarten auflisten und erläutern.

Die Begriffe des Glossars:

    Daten

    Datei

    Open

    Open Data

    Schnittstelle/API

    Formate

    Rohdaten

    Scraper

    Parser

    Datensatztypen

    Open Government

    Government 2.0

    ePartizipation

Daten (data – Latein, Plural von Datum) meint gruppierte Informationen; wörtliche Bedeutung: etwas Gegebenes, Gegebenheit.

Datei (im Engl. "file") ist ein Kunstwort aus Daten und Kartei.

Open - englisch für offen, meint vor allem allgemeine Zugänglichkeit. Mit "Open" wird signalisiert, dass eine kostenfreie Weiternutzung möglich ist (siehe z.B. Open Office); also kein klassisches Copyright mit der Software oder Information verbunden ist. Die Nutzung erfolgt über ein Lizenzmodell wie Creative Commons, das die Bedigungen der Verwendung regelt. Allerdings ist es umstritten, inwiefern "share alike"-Lizenzen als "offen" zu bewerten sind. Für Open Data gibt es mittlerweile verschiedene Lizenzmodelle, mehr dazu hier.

"Offen" muss nicht "frei" bedeuten, die Nutzung kann eingeschränkt sein und beispielsweise eine kommerzielle Verwendung untersagen. Dagegen sind Werke, die als "Public Domain" gekennzeichnet sind, ein Gemeingut und frei für jeden Zweck nutzbar. Als Faustformel mag gelten: Ist etwas nicht kostenfrei und/oder nicht weiternutzbar und/oder liegt nicht in einem offenen Format vor - dann ist es nicht „open“.

Open Data bezeichnet ein Prinzip oder eine Kultur. Bezieht es sich auf die Veröffentlichung von Datensätzen, meint es strukturierte, maschinenlesbare und gerne über eine offene API/Schnittstelle abrufbare Informationen. Oft wird der Begriff synonym für "Open Government Data" benutzt. Letzteres meint Datensätze aus der öffentlichen Hand (Politik, Verwaltung). Open Data kann aber auch von Wissenschaft, Wirtschaft, Nichtregierungsorganisationen (NGO) oder Privatpersonen praktiziert werden. In der Regel geht es bei Open Data um nicht-personenbezogene Daten oder zumindest anonymisierte Daten. Ein Open-Data-Angebot lässt sich im Netz vor allem daran erkennen, das es erlaubt, die Rohdaten herunterzuladen oder per Schnittstelle abzufragen.

Schnittstelle, auch API (Application Programming Interface): Eine API erlaubt es anderen Softwareanwendungen, gezielt und automatisiert maschinenlesbare Daten abzufragen. Dank ihr können verschiedene Daten automatisiert miteinander verknüpft und interpretiert werden (mashup) und so neue Informationen generieren.

Formate - Offene Formate sind:

  • Textdateien (.txt), Tabellen als "comma seperated value" (.csv)
  • die erweiterbare Auszeichnungssprache ("extensible markup language" .xml).
  • das Grafikformat "scalable vector graphics" (.svg).
  • leider sehr verbreitet aber gänzlich ungeeignet für Open Data ist das Format .pdf (portable document format). Die dort enthaltenen Informationen lassen sich nur umständlich auslesen.

Exceltabellen ( .xls) sind zwar maschinenlesbar, aber nicht wirklich offen sondern proprietär (siehe Engl: Property = Eigentum). D.h. einer Firma gehört das Format (Microsoft etwa .doc und .xls) und sie belegt dessen Einsatz und Nutzung mit Einschränkungen.

Neben Zahlen, Texten und Bildern (bspw. Kartenmaterial) sind im Zusammenhang mit Open Data noch so genannte Shapefiles (.svg) von Interesse, vor allem im Bereich der Geodaten: z.B. die Umrisse aller Landkreise eines Bundeslandes.

Rohdaten: Grundlage aller Datensätze sind unbearbeiteten Informationen. Die werden entweder unmittelbar - in Echtzeit oder Nachhinhein- "roh" veröffentlicht (etwa von einer Messtelle per Schnittstelle/API). Wenn sie im Nachhinein bereinigt und bearbeitet bereitgestellt werden, sind sie nicht mehr "roh" (beispielsweise ein Finanzhaushalt).

Scraper: (Engl: Kratzer, Schaber): Eine Programm, das Daten aus einer Website oder einem Dokument ausliest (scraping). Da derzeit viele Daten noch nicht als Open Data vorliegen, greifen Open-Data-Aktivisten auf diese Methode zurück. In der Regel werden die ausgelesen Dateien dann mit einem Parser bearbeitet. Eine großartige Anlaufstelle zu diesem Thema ist das englischsprachige ScraperWiki.

Parser: Der liest digitale Informationen und zerteilt sie (Lat: pars - teilen); beispielsweise die Ergebnisse eines Scrapers oder die Informationen aus einer XML-Datei. Die erhaltenen Teile werden dann umgewandelt und in eine Tabelle oder andere Strukturen gepackt ("geparsed").

Datensatztypen:

  • semistrukturierte Daten: Die liegen nicht in Tabellenform vor, sondern sind per Auszeichnung gekennzeichnet und damit ebenfalls einfach automatisiert auslesbar (aber meist auch für den Menschen verständlich). Gängiges Format im Internet ist XML , siehe die Beispielgrafik von Wikipedia rechts.
  • unstrukturierte Daten: Das sind Informationseinheiten wie etwa Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa eingescannte Dokumente ).

Open Government (kurz Open Gov): Dieses politische Modell kann ohne Open Data nicht funktionieren. Sein Prinzip ist Transparenz. Open Gov versteht Regierungen als Plattform, an der Bürger per Web andocken können. Erstens um Informationen über Vorgänge zu erhalten (z.B. Gesetzesänderungen). Zweitens um das Handeln von Politikern zu beobachten (monitoring), sei es deren Abstimmungsverhalten oder ihr Bezug von Nebeneinkünften. Drittens ermöglicht Open Gov in seiner idealen Form politische Teilhabe. In dem Sinne, dass Bürger mitentscheiden können und nicht nur unverbindlich beratende Funktion haben. Die Realisierung von Open Government muss nicht zwangsläufig durch Regierung oder staatliche Stellen geschehen, sondern kann auch von “unten” (Zivilgesellschaft) oder etwa von Medienunternehmen vorangetrieben werden.

Government 2.0 (kurz Gov 2.0): Dieses Prinzip dagegen ist ein Projekt von "oben", es stammt aus den politischen Apparaten und den Verwaltungen selbst. Es ist Teil der Verwaltungsmodernisierung und Ausdruck eines Dienstleistungsverständnisses. Open Data kann, muss dabei aber keine Rolle spielen: Denn es können Informationen preisgegeben, aber eben auch gezielt zurückgehalten werden. Auch kann der Zugriff zu ihnen beschränkt sein. Etwa indem Gebühren für die Daten verlangt werden. Insofern kann Gov 2.0 nur dann zu Open Gov werden, wenn es versucht, uneingeschränkte Transparenz herzustellen.

ePartizipation: Diese Verfahren sind derzeit nur Teil von Government 2.0 (wirkliches Open Government existiert weltweit noch nicht). Sie meinen elektronische Beteiligung via Internet, beispielsweise Bürgerhaushalte oder die Einreichung von Petitionen über ein Webportal. Derzeit sind die Ergebnisse von ePartizipation in der Regel unverbindlich für die politischen Entscheider. Der Begriff könnte auch Abstimmungen und Wahlen per Netz meinen; jedoch gibt es gegen diese diverse Bedenken aus Datenschutz- und Sicherheitsgründen.

(Eine erste Version dieses Glossars erschien bereits auf datenjournalist.de, eine zweite im Open Data Blog von zeit.de)

09:02 03.08.2011
Dieser Beitrag gibt die Meinung des Autors wieder, nicht notwendigerweise die der Redaktion des Freitag.
Geschrieben von

Datenblog

Es geht um Daten der öffentlichen Hand - sprich unserer aller Datensätze (OpenData) und der Berichterstattung mit ihnen und über sie (Datenjournalismus)
Schreiber 0 Leser 0
Avatar

Kommentare 1