En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour vous proposer des services et offres adaptés à vos centres d'intérêt. OK En savoir plus X
Déposez votre CV Fournisseurs du secteur public

Logo Gazette.fr

 

Réagir

[Opinion] Open Data

Données publiques : un peu de réalisme, SVP

Publié le • Par • dans : France, Opinions

0

Commentaire

Réagir

protection donnees cnil © CNIL

Le dernier classement de l’open Knowledge fondation (OKF) fait reculer la France de la 3ème à la 10ème place dans l’ouverture de ses données en open data. La France semble peiner à passer à une deuxième phase. Une autre méthode pourrait y aider.

Denis Berthault © D.B.

Denis Berthault, Responsable du groupe données publiques au GFII

 

Le denier classement de l’open Knowledge fondation (OKF) fait reculer la France de la 3ème à la 10ème place dans l’ouverture de ses données en open data (1). De nombreuses raisons sont invoquées, mais il semble surtout qu’après une première vague 2011-2014 qui a vu l’Etat diffuser gratuitement des données issues majoritairement de bases de données pré-existantes, ce qui est, somme toute assez facile, ce dernier peine à passer à la seconde phase. La raison principale nous paraît être, au-delà des enjeux démocratiques ou budgétaires, qu’on « n’a pas assez mesuré l’impact de la création de l’économie et du service public de la donnée » (2).

Pourtant, la France avance dans le bon sens : l’adoption récente du projet de loi Valter, qui transpose la directive de 2013 sur la réutilisation des données publiques, devenu la loi 2015-1779 (3), est un texte équilibré, non dogmatique, qui donne de la souplesse à l’administration pour se lancer dans la diffusion et la réutilisation de ses données et exécuter le nouveau service public de la donnée.

Encore faut-il combattre quelques poncifs et clarifier de nombreux points pour s’assurer que la France va exploiter au mieux cette nouvelle loi et pouvoir répondre au défi de l’ouverture des données par défaut qui se profile au Parlement. C’est toute l’ambition de cet article.

1 – Distinguer les types de données

La très récente création d’un poste de conseiller « ouverture des données et transformation numérique de l’action publique » auprès du ministre de l’économie numérique démontre que la problématique des données publiques s’insère dans le mouvement plus large de la modernisation de l’Etat et de l’évolution de ses missions.

On commence aussi à mesurer combien il est difficile de « sortir » des données et combien il faut d’énergie, d’opiniâtreté, de ressources informatiques, d’expertise humaine et de budget pour y parvenir.

Pour débuter, il nous paraît opportun de distinguer, quelle que soit la thématique retenue (santé, transport, économie, météo, géographiques, statistiques, droit,…), plusieurs types de données car toutes n’ont pas la même origine et posent des problématiques très différentes.

Les « nouvelles » données : recueillies ou obtenues via des capteurs ou via l’internet des objets, elles commencent à être produites en nombre suffisamment important pour susciter un nouveau marché. Elles sont en grande majorité gratuites car leur rediffusion ayant été prévue dès leur conception, les coûts de collecte et de structuration sont nuls.
En revanche, se pose la question de la confidentialité des données et d’une réglementation nécessaire sur leur caractère parfois personnel.

 

 

Les données environnementales : elles sont le fruit d’une obligation particulière, fixée par la directive européenne 2007/2/CE, appelée « directive Inspire » transposée en droit français par l’ordonnance n° 2010-1232 du 21 octobre 2010. Cette directive vise à établir une infrastructure d’information géographique dans la Communauté européenne pour favoriser la protection de l’environnement. La directive impose aux autorités publiques de rendre accessibles au public les données géographiques qu’elles détiennent, dès lors que ces données sont sous forme électronique et qu’elles concernent l’un des 34 thèmes listés par la directive.

Les données produites par les administrations dont la mission de service public est, justement, de produire, diffuser et rendre réutilisables leurs données : DILA, IGN, INSEE, INPI… Ces données posent un problème de financement et de modèle économique : même s’il est très tentant de décider unilatéralement de leur gratuité, il faut assumer en parallèle le risque de voir le budget général de l’Etat ne plus savoir compenser le manque à gagner de l’organisme sur le long terme et accepter ainsi une mort lente dont s’épouvanteront demain les mêmes qui prônent la gratuité aujourd’hui.

Les autres types de données que nous dénommerons ici les « données actuelles ».

Les trois premiers types peuvent facilement, d’un point de vue technique s’entend, être ouvertes par défaut, mais pas les « données actuelles ».

2 – Le nécessaire distinguo : données / bases de données

Notons que disposer de données, c’est bien ; pouvoir les utiliser/réutiliser, c’est mieux : c’est pourquoi, face au déluge de données qui s’annonce, la nécessité de les modéliser, dès la conception, sous forme d’ontologie est un impératif capital et trop ignoré.

Souvent, l’ouverture des données publiques est considérée comme une mise à disposition artisanale, « à la pièce », de données, même si ces dernières appartiennent au même corpus. Or, pour pouvoir traiter, analyser et exploiter les données à l’échelle industrielle et de manière globale, la création préalable (ou a posteriori, mais c’est plus coûteux) d’une base de données est indispensable, que la donnée provienne d’un réfrigérateur, d’une télévision, d’un traitement de texte ou d’une application mobile. C’est la raison pour laquelle une base de données normée est nécessaire car elle joue, de fait, un rôle central.

3 – «Données actuelles » : de quoi s’agit-il ?

C’est pourquoi c’est sur le quatrième type de données qu’il faut se concentrer : les données « actuelles », c’est-à-dire celles qu’utilisent aujourd’hui les administrations, les établissements publics et les collectivités locales dans leur tâches quotidiennes et qui représentent 90% des données produites actuellement au niveau ministériel, territorial et hospitalier. Notons qu’il s’agit la plupart du temps de données textuelles issues d’outils de traitement de texte plus que de tableurs.

Ces « données actuelles » posent en effet d’immenses problèmes pour être rediffusées, a fortiori en open data. Pourquoi ?

Tout d’abord, parce que ce sont des collections ou des empilages de documents, souvent non organisés, donc inexportables en l’état, a fortiori en open data. Au contraire : tout a été fait depuis des années pour les garder verrouillées. Et on voudrait, d’un tour de magie, pouvoir les exporter ?

Ce n’est malheureusement pas aussi simple : tout un travail préparatoire s’impose pour décrire et organiser ces données éparses qui, enrichies du « contexte métier » dans lequel elles ont été produites, leur donnerait un potentiel de réutilisation infini. Ce n’est qu’une fois ce travail préalable réalisé qu’il sera possible d’apporter le niveau d’anonymisation en fonction des besoins de réutilisation.

Et c’est précisément à cause de ces coûts d’anonymisation (même s’ils sont parfois automatisables) et de création de flux de datas que naissent les vrais débats. On l’a d’ailleurs observé s’agissant du SNIRAM, la gigantesque base de données préexistante de l’Assurance maladie dont l’ouverture était possible… moyennant de nombreuses adaptations.

Diffuser en open data nécessite, la CNIL s’en fait suffisamment l’écho (4), une anonymisation maximale pour éviter tout risque de ré-identification après croisement avec d’autres données (publiques ou privées, d’ailleurs).

4 – A to C & A to B & A to A : de quoi s’agit-il ?

Dans un tel contexte, il est évident que l’open data va coûter cher, très cher, surtout si on y ajoute la nécessité pour les administrations de mettre en place des flux de diffusion de la donnée, ce qui représente un changement par rapport à leur métier originel. Il est donc essentiel que les données soient exploitables pour une réutilisation dans un cadre professionnel.

On peut même aller plus loin en faisant le bilan objectif – au niveau national comme local – des expériences menées : le citoyen ne s’intéresse à l’open data que lorsque des applications développées les accompagnent (domotiques, smart city, transport, géolocalisation…). C’est donc vers les administrations et les entreprises qu’il faut se tourner pour trouver les principaux réutilisateurs.

Nous croyons donc que le premier public qui doit bénéficier de l’ouverture des données publiques doit d’abord être l’administration elle-même (A to A), ensuite l’entreprise (A to B), puis le citoyen (A to C).

De cette conviction découlent de nombreuses conséquences sur le traitement des données, le niveau d’anonymisation, les logiques juridiques, techniques et tarifaires… et les investissements à consentir.

C’est pourquoi nous proposons de distinguer les types de réutilisation :

  • 1. A to A : l’administration réutilise ses propres données ou les données d’une autre administration, avec ou sans cadre réglementaire. De même, elle peut (le rapport Fouilleron l’y encourage même) échanger ses données avec d’autres administrations.

De ces distinctions vont naître des besoins d’information, de gouvernance et d’anonymisation différents. Dit autrement : la version « open data » ne peut suffire à l’administration. L’administration doit être le premier bénéficiaire de l’ouverture de ses propres données, dans un format qui corresponde à ses besoins. Elle doit aussi accepter que ces échanges soient encadrés et contrôlés.

  • 2. A to B : l’administration diffuse au secteur privé – concurrentiel ou non – ses données. Ici aussi, il est nécessaire que l’administration prenne connaissance de l’usage qui sera fait de ses données (c’est le cas sur les données de santé) et maintienne des relations contractuelles avec ses réutilisateurs.
  • 3. A to C : administration vers le citoyen : toutes les règles de l’open data s’appliquent ici.

En conclusion, nous recommandons que les investissements, beaucoup plus conséquents que prévus, soient focalisés pour numériser et convertir des contenus dont on a la certitude qu’ils seront réutilisés et permettront une réutilisabilité maximale pour l’émetteur des données, des autres administrations, puis, sous une forme plus ou moins complète, pour les entreprises (qui sont disposées à financer une bonne qualité de données) pour terminer avec celles dédiées au citoyen.

Dans ce dernier cas, nous mettons à part les données de transparence démocratique qui relèvent d’autres logiques, tout comme le débat naissant sur les données pivots ou les « données d’intérêt général ».

Haut de page

0

Commentaire

Réagir
Publicité
Publicité

Télécharger
l'appli!

En savoir plus

Formations d’experts

Mots-clés

Thèmes abordés AdministrationOpen data

0 Commentaire

Ajouter un commentaire
  1. Ajouter un commentaire

      Votre e-mail ne sera pas visible

    Conformément à la loi "Informatique et libertés" du 6 janvier 1978, vous pouvez accéder aux informations vous concernant, les rectifier ou vous opposer à leur traitement et à leur transmission éventuelle à des tiers en écrivant à : Groupe Moniteur - 17, rue d'Uzès 75018 Paris cedex 02 ou en cliquant ici.