L’ouverture des données publiques, telle qu’elle est pratiquée en France se réduit trop souvent à l’open data strict. C’est-à-dire que lorsqu’un contenu est ouvert, il doit pouvoir satisfaire tout type de réutilisateur et tout type d’usage et/ou de réutilisation. Conséquence : les fichiers sont délivrés dans un format unique et peu exploitable par nombre de professionnels ou les écosystèmes du big data en général.
Si la qualité de l’information publique « ouverte » se définit par des aspects techniques (structure, périodicité, format, base de données, compliance avec les standards..), elle se définit aussi par son adéquation avec la règlementation existante en matière de données. Le RGPD en voulant éviter tout risque de réidentification, contraint les producteurs publics à revoir tout le catalogue des données qu’elles rendent accessibles en open data pour s’assurer qu’elles ne permettent pas de réidentification des personnes physiques, ni ne contiennent d’informations sensibles.
Ainsi, et parce qu’aucun retour sur investissement n’est autorisé (puisque « l’open data doit être gratuit »), le coût de nettoyage, total ou partiel de ces informations laisse le producteur d’informations publiques face à un dilemme : réduire le spectre des données déjà diffusées ou investir pour les anonymiser au risque de les rendre inexploitables, car vides de sens, pour les réutilisateurs.
Bien entendu, ce raisonnement s’applique aussi aux futures données et on comprend sans peine que les contraintes du RGPD, associées à l’open data tel qu’appliqué par la France, débouche sur l’inévitable réduction du nombre de données diffusées ou en passe de l’être, sur le tarissement du potentiel de réutilisation des données et, pour celles qui resteront ouvertes, des coûts d’anonymisation exorbitants.
Comment sortir de cette impasse sur les données personnelles ? La théorie des cercles
Mais il est possible de concilier l’inconciliable, en traitant les réutilisateurs différemment selon leur nature, l’usage qu’ils font du contenu et leur capacité à satisfaire aux exigences du RGPD.
C’est d’ailleurs, après de nombreux tâtonnements, le constat auquel on est arrivé pour les données de santé avec la loi de modernisation du 26 janvier 2016, dont le nouveau Titre IV organise la mise à disposition de certaines données de santé au profit de la communauté des chercheurs publics, mais également privés, ainsi que du grand public.
Une autre illustration est apportée dans le rapport récent recommandant, dans le cadre de la loi Lemaire, la mise en open data des données juridictionnelles. Ce rapport démontre, si besoin, que pour tout type de donnée, la multiplicité des réutilisations ne peuvent être traitées par une seule et unique version « open data », ou par une seule et même méthode d’anonymisation des données. On voit aussi que les exigences de publicité, de respect de la vie privée, de protection des données à caractère personnel sont difficilement conciliables en regard des opportunités économiques, de la vision nouvelle de la justice ou de la santé et de la sécurité des professionnels.
Pour avancer, il paraît désormais indispensable de distinguer les producteurs et les types de réutilisations par la création de « cercles » de réutilisateurs différents, qui disposeraient de droits de lecture et d’accès aux données différents :
- Le service émetteur de l’administration concernée (habilité à tout voir)
- L’administration émettrice (habilité à voir certaines parties du document, nominatives ou pas)
- Une autre administration, locale ou nationale, via, si possible, une convention avec l’administration émettrice
- Les réutilisateurs habilités, ayant passé un contrat de licence et reçu, le cas échéant, une habilitation ad-hoc par l’administration émettrice
- Les autres réutilisateurs, dans une configuration open data
Evidemment, vu comme cela, la production, l’organisation et la circulation des données n’ont plus rien à voir avec le système français d’opendata, empreint d’un trop grand manichéisme. En revanche, ce chemin pourrait bien mener vers l’âge adulte de la donnée comme outil de développement de l’économie numérique et de transparence de l’action publique.
(1) Denis Berthault travaille dans une entreprise qui exploite des données publiques. Il signe le plus souvent ses articles en tant que co-animateur du groupe de travail du GFII (Groupement français de l’industrie de l’information) « données publiques et opendata ». Dans les articles ou il préfère garder sa liberté de ton, il utilise son titre universitaire.
Cet article est en relation avec les dossiers
- Données personnelles : un gisement sous haute protection
- Open Data et réutilisation des données publiques : des promesses vertigineuses
- Smart city : les clés de la ville intelligente
Thèmes abordés