Posts Tagged ‘format’

Open Data, révolution ou effet de mode ?

Sunday, August 12th, 2012

Le principe de l’Open Data n’a rien de révolutionnaire. Quoi de plus naturel de mettre à disposition des citoyens/usagers/clients les données intéressantes ? C’est donc un simple retour à la raison… même si c’est étonnant pour notre société qui marche sur la tête dans bien des domaines. En quelques années, l’Open Data est devenu un effet de mode : je suis à la fois enthousiaste de voir les valeurs de transparence véhiculées par les Logiciels Libres s’étendre à d’autres domaines ; et à la fois suspicieux d’entendre des discours politiques prématurés, de voir des requins espérant décrocher des budgets grâce à ce buzzword, de constater la publication de données sans queue ni tête, de déplorer tant d’aberrations techniques, etc. Le scénario catastrophe étant que les hommes politiques s’achètent une crédibilité en allouant des budgets à des consultants externes payés à produire des documents Excel sans intérêt.

Pour éviter ce scénario, je partage quelques points qui me trottent dans la tête :

Quelles données Open Data ont déjà été publiées ?

Il existe bien sûr des annuaires qui tentent de recenser toutes ces données. S’intéresser aux données déjà publiées permet de copier les bonnes idées ! Voici une petite liste (non exhaustive) :

– Données émises par des États : USA (data.gov), Grande-Bretagne (data.gov.uk), France (data.gouv.fr) etc.
– Données locales : Londres, Trafford, Rennes, Toulouse, Paris, Montpellier, Loire Atlantique, Gironde et Aquitaine, PACA, etc.
– Données de transport : transports publics à NYC, géolocalisation des navires, géolocalisation des avions, SNCF, RATP
– Données géographiques : OpenStreetMap, base astronomique, observations météo des 7 derniers jours
– Données culturelles : Bibliothèque Nationale avec data.bnf.fr et Gallica, MP2013, Musicbrainz
– Données scientifiques : données biologiques, openedition

À compléter sur http://pad.evolix.org/p/opendata

Quelles données voulons-nous en Open Data ?

Alors que certaines institutions sont prêtes à jouer le jeu, la question essentielle est de savoir quelles données nous voulons avoir ! En effet, ce sont aux citoyens/usagers/clients de réclamer certaines données (avant d’en créer eux-mêmes dans certains cas). Et cette question n’est pas si simple…

Vous avez des idées d’analyse de données ? d’applications ? de création de start-ups ? Alors réclamez les données nécessaires !

Voici quelques idées :

– Les horaires (commerces, établissements/services publics, musées/jardins/parcs, etc.)
– File d’attente (temps réel et stats) des préfectures, mairies, SS, CAF, médecins/hôpitaux
– Remplissage en temps réel des parkings publics et privés
– Données (temps réel et stats) des autoroutes et de points de passage
– Données (temps réel et stats) des vélos libres, hors-service et bornes libres
– Données de remplissage (temps réel et stats) des transports en communs
– Horaires (et retards) prévus des transports en communs
– Géolocalisation en temps réel des transports en commun
– Budgets détaillés de toutes les structures publiques… ou subventionnées
– Résultats de chaque élection
– Données et statistiques de l’INSEE
– Suivis et résultats de la Recherche publique… ou subventionnée
– Données météorologiques
– Données (temps réel et stats) sur la consommation locale et régionale d’électricité, d’eau et de gaz
– Les tarifs et stocks des produits vendus un commerce (un supermarché par exemple)
– La composition détaillée des produits vendus

À compléter sur http://pad.evolix.org/p/opendata

Les licences de l’Open Data

Étudier et choisir les licences est important mais souvent ennuyeux. Les Logiciels Libres ont une expérience de plus de 20 ans dans ce domaine, et c’est dommage que ceux qui publient de l’Open Data ne s’y intéressent pas davantage : certaines erreurs seraient évitées, notamment de ré-écrire sa propre licence, ce qui entraîne de nombreuses licences sur le “marché” et des problèmes de compatibilité, de fusion, etc. J’encourage donc à utiliser les licences les plus communes comme l’Open Database License (ODbL) (utilisée par OSM) ou la Public Domain and License (PDDL); en France, la Licence Ouverte a été publiée par l’État spécialement pour l’Open Data et me semble très intéressante en terme de liberté et compatibilité, et les projets français devraient a priori l’adopter.

Comment publier techniquement des données Open Data ?

Les données ne présentent que peu d’intérêt si elles ne sont pas publiées sous un format standard et ouvert. Autant dire qu’un document PDF ou Excel à télécharger n’est pas vraiment de l’Open Data… et c’est pourtant ce que l’on trouve majoritairement sur data.gouv.fr ! Il faut bien avoir en tête que les données ne sont pas destinées à être lues directement par des humains. On privilégiera donc des formats comme du CSV, XML ou JSON, facilement utilisables par des applications. Pour certains domaines, des nouveaux formats doivent être crées (exemple avec les données de transport) et l’on veillera donc bien à utiliser le bon format.

L’autre point important d’une publication de données (et surtout pour les données en temps réel) est son accessibilité par des URLs simples et logiques. Par exemple, en s’inspirant du style REST, un tarif d’un produit à une date donnée sera accessible via une requête HTTP GET sur une URL du type http://data.example.com/products/product1/tarif/20100701/EUR

L’éminent Tim Berners-Lee a défini la qualité des données publiées par un système d’étoiles ainsi :

★ make your stuff available on the web (whatever format)
★★ make it available as structured data (e.g. excel instead of image scan of a table)
★★★ non-proprietary format (e.g. csv instead of excel)
★★★★ use URLs to identify things, so that people can point at your stuff
★★★★★ link your data to other people’s data to provide context

Comment aider le mouvement Open Data ?

On répond souvent qu’il faut contribuer à OpenStreeMap et promouvoir l’Open Data. C’est vrai, mais je vous encourage aussi à réclamer les données qui vous paraissent intéressantes auprès des institutions/entreprises ! Et à concevoir des procédés astucieux (comme utiliser des récepteurs AIS) pour générer de nouvelles données.

Si vous avez de bonnes idées, notez les ici ! On pourrait notamment profiter du mouvement d’ouverture de données en région PACA pour obtenir ces données ou un appui. Et si des idées intéressantes émergent, avec des personnes motivées, on pourrait participer au Hackathon organisé à Marseille fin septembre 2012.