Datenblog

OpenData/ Data Driven Journalism

03.08.2011 | 09:02

Glossar zu Open Data

Die Idee Open Data ist vergleichsweise jung und die Begriffe, die damit verbunden sind, werden längst nicht von allen gleich interpretiert. Der folgende Artikel ist der Versuch eines Glossars, er will Schlüsselworte rund um Standards, Datenformate und Datenarten auflisten und erläutern.

Die Begriffe des Glossars:

  • Daten
  • Datei
  • Open
  • Open Data
  • Schnittstelle/API
  • Formate
  • Rohdaten
  • Scraper
  • Parser
  • Datensatztypen
  • Open Government
  • Government 2.0
  • ePartizipation

Daten (data – Latein, Plural von Datum) meint gruppierte Informationen; wörtliche Bedeutung: etwas Gegebenes, Gegebenheit.

Datei (im Engl. "file") ist ein Kunstwort aus Daten und Kartei.

Open - englisch für offen, meint vor allem allgemeine Zugänglichkeit. Mit "Open" wird signalisiert, dass eine kostenfreie Weiternutzung möglich ist (siehe z.B. Open Office); also kein klassisches Copyright mit der Software oder Information verbunden ist. Die Nutzung erfolgt über ein Lizenzmodell wie Creative Commons, das die Bedigungen der Verwendung regelt. Allerdings ist es umstritten, inwiefern "share alike"-Lizenzen als "offen" zu bewerten sind. Für Open Data gibt es mittlerweile verschiedene Lizenzmodelle, mehr dazu hier.

"Offen" muss nicht "frei" bedeuten, die Nutzung kann eingeschränkt sein und beispielsweise eine kommerzielle Verwendung untersagen. Dagegen sind Werke, die als "Public Domain" gekennzeichnet sind, ein Gemeingut und frei für jeden Zweck nutzbar. Als Faustformel mag gelten: Ist etwas nicht kostenfrei und/oder nicht weiternutzbar und/oder liegt nicht in einem offenen Format vor - dann ist es nicht „open“.

Open Data bezeichnet ein Prinzip oder eine Kultur. Bezieht es sich auf die Veröffentlichung von Datensätzen, meint es strukturierte, maschinenlesbare und gerne über eine offene API/Schnittstelle abrufbare Informationen. Oft wird der Begriff synonym für "Open Government Data" benutzt. Letzteres meint Datensätze aus der öffentlichen Hand (Politik, Verwaltung). Open Data kann aber auch von Wissenschaft, Wirtschaft, Nichtregierungsorganisationen (NGO) oder Privatpersonen praktiziert werden. In der Regel geht es bei Open Data um nicht-personenbezogene Daten oder zumindest anonymisierte Daten. Ein Open-Data-Angebot lässt sich im Netz vor allem daran erkennen, das es erlaubt, die Rohdaten herunterzuladen oder per Schnittstelle abzufragen.

Schnittstelle, auch API (Application Programming Interface): Eine API erlaubt es anderen Softwareanwendungen, gezielt und automatisiert maschinenlesbare Daten abzufragen. Dank ihr können verschiedene Daten automatisiert miteinander verknüpft und interpretiert werden (mashup) und so neue Informationen generieren.

Formate - Offene Formate sind:

  • Textdateien (.txt), Tabellen als "comma seperated value" (.csv)
  • die erweiterbare Auszeichnungssprache ("extensible markup language" .xml).
  • das Grafikformat "scalable vector graphics" (.svg).
  • leider sehr verbreitet aber gänzlich ungeeignet für Open Data ist das Format .pdf (portable document format). Die dort enthaltenen Informationen lassen sich nur umständlich auslesen.

Exceltabellen ( .xls) sind zwar maschinenlesbar, aber nicht wirklich offen sondern proprietär (siehe Engl: Property = Eigentum). D.h. einer Firma gehört das Format (Microsoft etwa .doc und .xls) und sie belegt dessen Einsatz und Nutzung mit Einschränkungen.

Neben Zahlen, Texten und Bildern (bspw. Kartenmaterial) sind im Zusammenhang mit Open Data noch so genannte Shapefiles (.svg) von Interesse, vor allem im Bereich der Geodaten: z.B. die Umrisse aller Landkreise eines Bundeslandes.

Rohdaten: Grundlage aller Datensätze sind unbearbeiteten Informationen. Die werden entweder unmittelbar - in Echtzeit oder Nachhinhein- "roh" veröffentlicht (etwa von einer Messtelle per Schnittstelle/API). Wenn sie im Nachhinein bereinigt und bearbeitet bereitgestellt werden, sind sie nicht mehr "roh" (beispielsweise ein Finanzhaushalt).

Scraper: (Engl: Kratzer, Schaber): Eine Programm, das Daten aus einer Website oder einem Dokument ausliest (scraping). Da derzeit viele Daten noch nicht als Open Data vorliegen, greifen Open-Data-Aktivisten auf diese Methode zurück. In der Regel werden die ausgelesen Dateien dann mit einem Parser bearbeitet. Eine großartige Anlaufstelle zu diesem Thema ist das englischsprachige ScraperWiki.

Parser: Der liest digitale Informationen und zerteilt sie (Lat: pars - teilen); beispielsweise die Ergebnisse eines Scrapers oder die Informationen aus einer XML-Datei. Die erhaltenen Teile werden dann umgewandelt und in eine Tabelle oder andere Strukturen gepackt ("geparsed").

Datensatztypen:

  • strukturierte Daten: Das sind Datensätze, die klare Bezeichnungen für die einzelnen Spalten der Tabelle einer Datenbank haben (beispielsweise: Name, Typ, Datum, Höhe, Standort usw.) Sie weisen also eine eindeutige Datenstruktur auf und können einfach bearbeitet, sortiert und gefiltert werden.
  • semistrukturierte Daten: Die liegen nicht in Tabellenform vor, sondern sind per Auszeichnung gekennzeichnet und damit ebenfalls einfach automatisiert auslesbar (aber meist auch für den Menschen verständlich). Gängiges Format im Internet ist XML , siehe die Beispielgrafik von Wikipedia rechts.
  • unstrukturierte Daten: Das sind Informationseinheiten wie etwa Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa eingescannte Dokumente ).

Open Government (kurz Open Gov): Dieses politische Modell kann ohne Open Data nicht funktionieren. Sein Prinzip ist Transparenz. Open Gov versteht Regierungen als Plattform, an der Bürger per Web andocken können. Erstens um Informationen über Vorgänge zu erhalten (z.B. Gesetzesänderungen). Zweitens um das Handeln von Politikern zu beobachten (monitoring), sei es deren Abstimmungsverhalten oder ihr Bezug von Nebeneinkünften. Drittens ermöglicht Open Gov in seiner idealen Form politische Teilhabe. In dem Sinne, dass Bürger mitentscheiden können und nicht nur unverbindlich beratende Funktion haben. Die Realisierung von Open Government muss nicht zwangsläufig durch Regierung oder staatliche Stellen geschehen, sondern kann auch von “unten” (Zivilgesellschaft) oder etwa von Medienunternehmen vorangetrieben werden.

Government 2.0 (kurz Gov 2.0): Dieses Prinzip dagegen ist ein Projekt von "oben", es stammt aus den politischen Apparaten und den Verwaltungen selbst. Es ist Teil der Verwaltungsmodernisierung und Ausdruck eines Dienstleistungsverständnisses. Open Data kann, muss dabei aber keine Rolle spielen: Denn es können Informationen preisgegeben, aber eben auch gezielt zurückgehalten werden. Auch kann der Zugriff zu ihnen beschränkt sein. Etwa indem Gebühren für die Daten verlangt werden. Insofern kann Gov 2.0 nur dann zu Open Gov werden, wenn es versucht, uneingeschränkte Transparenz herzustellen.

ePartizipation: Diese Verfahren sind derzeit nur Teil von Government 2.0 (wirkliches Open Government existiert weltweit noch nicht). Sie meinen elektronische Beteiligung via Internet, beispielsweise Bürgerhaushalte oder die Einreichung von Petitionen über ein Webportal. Derzeit sind die Ergebnisse von ePartizipation in der Regel unverbindlich für die politischen Entscheider. Der Begriff könnte auch Abstimmungen und Wahlen per Netz meinen; jedoch gibt es gegen diese diverse Bedenken aus Datenschutz- und Sicherheitsgründen.

(Eine erste Version dieses Glossars erschien bereits auf datenjournalist.de, eine zweite im Open Data Blog von zeit.de)

 

 
Senden Bookmarken Drucken
Kommentare
dr0i schrieb am 30.03.2012 um 14:24
Ein Glossar sollte sich keine groben Fehler leisten. Zur Definition von "Open" steht hier:

"Allerdings ist es umstritten, inwiefern "share alike"-Lizenzen als "offen" zu bewerten sind. Für Open Data gibt es mittlerweile verschiedene Lizenzmodelle, mehr dazu ....". Der Link führt zur opendatacommon, hier steht durchaus Share-Alike als gültige offene Lizenz . Unter demselben Punkt steht dann

"Offen" muss nicht "frei" bedeuten, die Nutzung kann eingeschränkt sein und beispielsweise eine kommerzielle Verwendung untersagen."

Also eine Non-Commercial-Lizenz (NC). Diese NC-Lizenz ist aber im Sinne der Open Definition[1] eben nicht Open. NC heißt u.a. dass die Daten nicht von Wikipedia benützt werden dürfen. Streng genommen auch nicht von Suchmaschinen die neben der Anzeige der Daten Werbung einblenden. Das hat mit Offenheit also eher wenig gemein.
Statt eigene, fehlerhafte Glossare zu schreiben sollte der Freitag lieber bereits vorhandene, weithin akzeptierte zitieren resp. deren Widersprüchlichkeiten aufzeigen. Bitte immer mit Quellangaben!

[1] opendefinition.org/okd/deutsch/
Datenblog
Es geht um Daten der öffentlichen Hand - sprich unserer aller Datensätze (OpenData) und der Berichterstattung mit ihnen und über sie (Datenjournalismus)
Mitglied seit:
2 Jahre 5 Wochen
Zuletzt aktiv:
14.03.2012
Status:
Blogger
Aktivität:
Beiträge: 24
Kommentare: 8
Mein Projekt:
Mein Web:
Logbuch
13:31
goedzak hat gerade einen Kommentar geschrieben.
13:29
Lethe hat gerade einen Kommentar geschrieben.
13:28
h.yuren hat gerade einen Kommentar geschrieben.
13:28
Lethe hat gerade einen Kommentar geschrieben.
13:23
gerhard monsees hat gerade einen Kommentar geschrieben.
Jürgen Roth Gazprom – das unheimliche Imperium Westend Verlag 2012

316 Seiten. Gebunden.

19,99
 
Das Imperium Gazprom verfügt über eine eigene Armee und einen mächtigen Geheimdienst. An verantwortlichen Positionen arbeiten ehemalige KGB-Agenten, sein privater Besitz ist absolut geschützt, die Verantwortlichen sind unantastbar. Mit Hilfe williger deutscher und europäischer Industrieller versucht es, den Energiemarkt zu monopolisieren und die Verbraucher abzuzocken. Jürgen Roth enthüllt, wer hinter den Kulissen die Fäden zieht >> mehr
Arte-Kooperation

portlet_ArabienArte.png

portlet-gaertnerbuch.png

wir müssen reden

Augstein und Blome

portlet_Phoenix-12.png

Probe-Abo

probeabo260x120.jpg

Aktuelle Ausgabe bestellen
Der gefährlichste Mann Europas?

Ausgabe 21/2012
24.05.2012

keine Versandkosten
kein Aufpreis

Einzelpreis: 3.60 €

>> bestellen
der Freitag Kollektion

Freitag-Kollektion_Gaertner.jpg

Arte

portlet_arte+zeile.pngportlet_arte+zeile.png

Freitag-Buchshop.png

 
 
 
 
© der Freitag Mediengesellschaft mbH & Co. KG