Fermer

Déjà inscrit(e) ?

Mot de passe oublié ?

Identifiant et/ou mot de passe non valides

Nous n’avons pas reconnu votre email, veuillez indiquer un email valide, utilisé lors de la création de votre compte.

Un message avec vos codes d'accès vous a été envoyé par mail.

Pas encore inscrit(e) ?

Inscrivez-vous pour accéder aux services de LaGazette.fr et à la gestion de vos Newsletters et Alertes.

M'inscrire gratuitement

Menu

Déjà inscrit(e) ?

Mot de passe oublié ?

Identifiant et/ou mot de passe non valides

Nous n’avons pas reconnu votre email, veuillez indiquer un email valide, utilisé lors de la création de votre compte.

Un message avec vos codes d'accès vous a été envoyé par mail.

Pas encore inscrit(e) ?

Inscrivez-vous pour accéder aux services de LaGazette.fr et à la gestion de vos Newsletters et Alertes.

M'inscrire gratuitement

Numérique

« Ne jetez pas le bébé de l’open data avec l’eau du bain de l’IAG ! »

Publié le 17/06/2025 • Par Auteur associé • dans : France, Opinions

Chignard-Goeta
Chignard & Goeta
Selon Simon Chignard, président de l’observatoire Data Publica, et Samuel Goëta, cofondateur de Datactivist et membre du collectif Data Publica, les IA génératives sont à l’opposé du cadre posé par les politiques de l’open data. Or, ce cadre de règles juridiques, de pratiques et de limites doit permettre de repenser une autre IA, moins opaque, moins exploitative et plus respectueuse des données et de leurs producteurs.

Ma Gazette

Sélectionnez vos thèmes et créez votre newsletter personnalisée

L’engouement pour les IA génératives (IAG) ne faiblit pas au sein des collectivités. Une priorité chassant l’autre : quelle place reste-t-il pour l’ouverture des données ? Posons d’abord un constat : l’open data, tel qu’on le connaît depuis quinze ans, est aux antipodes des pratiques de l’industrie de l’IA générative, en particulier pour les données d’entraînement.

Aussi imparfaites et inachevées soient-elles, les politiques d’open data ont posé un cadre : des données structurées, documentées et, si possible, éditorialisées. La « chasse aux PDF » a écarté des portails open data des trésors de textes, mais aussi d’images ou de vidéos (pensons aux enregistrements et au contenu des délibérations des conseils municipaux). Plus important encore, les politiques d’open data ont posé un cadre protecteur de la vie privée et du droit d’auteur, avec des licences claires. Enfin, l’open data s’efforce aussi d’organiser, avec un succès mitigé, une traçabilité des usages. Bref, l’open data est une politique publique organisée, avec ses règles juridiques, ses pratiques, mais aussi ses limites.

Les données d’entraînement des IA génératives sont à l’opposé de ce cadre. Les documents PDF, les pages web, les données non structurées en constituent la matière première. Une étude récente – le Foundation Model Transparency Index (Oxford CRFM, octobre 2023) – révèle l’opacité des principaux modèles d’IA générative (GPT-4, Llama, Gemini, Claude et Mistral), tous obtenant un score de zéro sur la transparence des données d’entraînement ! La ­chercheuse Kate Crawford, dans son « Contre-atlas de l’IA » (Poche, 2023), décrit cette situation comme un nouveau Far West et un « pillage de l’espace public ».

Les acteurs de l’open data au sein des collectivités s’interrogent : faut-il abandonner l’open data pour se concentrer sur l’IA ? Nous plaidons pour ne pas opposer les deux. L’IA générative peut faciliter la découverte et l’usage des données ouvertes, en permettant de poser des questions à un jeu de données, d’interagir et de l’analyser sans compétence en programmation. Cela ouvre la porte à une démocratisation des usages. Nous en rêvions, c’est maintenant possible, réjouissons-nous !

Les politiques d’open data doivent aussi être réinterrogées avec la nouvelle donne de l’IA. Il nous faut revoir notre définition des données pour y intégrer des données non structurées, des corpus documentaires, des banques d’images. Mais il ne faut rien lâcher sur les fondamentaux que constituent la documentation, la gouvernance des données ou les licences juridiques. L’opacité des modèles et le pillage de l’espace public ne sont un modèle ni soutenable ni désirable. Certains acteurs de l’IA développent déjà des corpus d’entraînement réellement ouverts, à l’image de ­Common ­corpus, mis au point par Pleias en France.

Les principes et les pratiques de l’open data depuis quinze ans, loin d’avoir perdu leur pertinence, peuvent nous aider à repenser une autre IA, moins opaque, moins exploitative et plus respectueuse des données et de leurs producteurs.

 

Cet article est en relation avec les dossiers

Réagir à cet article
shadow
marche online

Aujourd'hui sur les clubs experts gazette

Nos services

Prépa concours

CAP

Évènements

Gazette

Formations

Gazette

Commentaires

« Ne jetez pas le bébé de l’open data avec l’eau du bain de l’IAG ! »

Votre e-mail ne sera pas publié

Les informations à caractère personnel recueillies font l’objet d’un traitement par La Gazette des Communes du Groupe Moniteur S.A.S, RCS Créteil 403 080 823. Elles sont uniquement nécessaires à la gestion de votre commentaire à cet article et sont enregistrées dans nos fichiers. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

Déjà inscrit(e) ?

Mot de passe oublié ?

Identifiant et/ou mot de passe non valides

Nous n’avons pas reconnu votre email, veuillez indiquer un email valide, utilisé lors de la création de votre compte.

Un message avec vos codes d'accès vous a été envoyé par mail.

Pas encore inscrit(e) ?

Inscrivez-vous pour accéder aux services de LaGazette.fr et à la gestion de vos Newsletters et Alertes.

M'inscrire gratuitement