EXAMEN EN COMMISSION
M. Jean-Pierre Sueur , président . - À présent, MM. Gorce et Pillet nous présentent le rapport d'information qu'ils ont réalisé sur l' open data et la protection de la vie privée.
M. Gaëtan Gorce , rapporteur . - L'anglicisme open data désigne la mise à disposition d'un maximum de données détenues par les administrations dans des conditions techniques, juridiques et financières favorables à leur réutilisation par des tiers. Techniques : en les rendant accessibles dans des formats non propriétaires. Juridiques : en limitant les obstacles à leur réutilisation. Financières : en ne soumettant pas leur réutilisation au paiement d'une redevance. Tels sont les principes retenus par la plupart des gouvernements. Cette nouvelle notion est intéressante, mais pose un certain nombre de problèmes.
D'abord, l'objectif de l' open data est encore incertain. Pourquoi diffuser largement des données servant au bon fonctionnement des services publics ? Dans les années 1990, la demande de libération des données émanait essentiellement d'universitaires soucieux de ne pas réserver le produit de leurs recherches à leurs seuls commanditaires ; d'aucuns y ont ensuite vu, aux États-Unis, une source de richesse ; depuis quelques années, l' open data est défendu au nom de principes politiques et démocratiques, et justifié par l'article 15 de la Déclaration des droits de l'homme et du citoyen de 1789.
Les textes existants, comme la circulaire Fillon ou le décret de février 2011 instituant Etalab reposent sur ces principes de transparence et de contrôle, ainsi que sur une exigence renouvelée de modernisation de l'action publique. Tous ces fondements, relativement confus, gagneraient à être priorisés. Au nom du débat public, le portail établi par Etalab accueille ainsi des données privées, sans que cela soit clairement mentionné ni qu'ait été préalablement définie la responsabilité de l'hébergeur...
Cette politique souffre ensuite d'une certaine complexité juridique. La principale base juridique à l'accès élargi aux données publiques est fournie par la loi du 17 juillet 1978 relative à l'accès aux documents administratifs. Or nous sommes passés d'une logique de la demande à une logique de l'offre. La loi distingue désormais les documents que l'administration a l'obligation de communiquer, de ceux qu'elle a la faculté de mettre à disposition des usagers. En 2005, le droit de réutilisation de ces données a été précisé par ordonnance, sous réserve des dispositions de la loi « Informatique et libertés » du 6 janvier 1978. Cette sédimentation rend l'ensemble peu cohérent et suscite des difficultés d'interprétation.
Enfin, la mise en place de la politique d' open data a été quelque peu improvisée. Le militantisme l'a emporté à toute force. L'approche défendue par Lionel Jospin dans son discours d'Hourtin de 1997 a été poursuivie par tous les gouvernements successifs, mais sans doctrine ni moyens. Un outil a été créé, l'Agence du patrimoine immatériel de l'État, puis Etalab . Celui-ci emploie sept personnes, mais le cadre juridique de son action n'est toujours pas clair. Il publie des vade-mecum sur la libération des données, mais n'assure aucune veille. Il participe à la politique de mise en ligne des données des administrations, mais ses pouvoirs ne sont pas précisément définis. Bref, stabilisons le pilotage de l' open data .
De manière plus préoccupante, le risque pesant sur la protection des données personnelles apparaît largement sous-évalué par les administrations. Ces préoccupations ne sont pas suffisamment rappelées aux différents acteurs. Une grande partie de nos interlocuteurs nous ont même assuré que la question ne se posait pas dès lors que la loi de 1978 excluait la publication de données personnelles non anonymisées ou en l'absence du consentement de la personne à laquelle elles se rapportent. La sous-estimation de ce risque est militante. Elle vise à ne pas contraindre par des principes le développement naturel des techniques. Cette situation n'est pas tenable : une consultation organisée par la CNIL a montré que 50 % des répondants, responsables open data , ont rencontré des problèmes liés aux données personnelles.
En la matière, les techniques ne sont pas infaillibles. La plus efficace combine cryptage et hachage des données. Mais tous les techniciens nous ont assuré qu'il n'existait aucun système absolument sûr. Toutes les données peuvent faire l'objet de recoupements, de croisements, pour remonter jusqu'à l'identité des personnes. La démonstration nous en a été faite... AOL avait par exemple rendu publiques les recherches effectuées par ses clients sur Internet : l'utilisation de pseudonymes n'a pas empêché de retrouver l'identité de certains d'entre eux à partir des informations qu'on déduisait de leurs recherches. Si la chose est possible dans une entreprise privée, elle l'est aussi dans l'administration.
Le rapport de Pierre-Louis Bras et André Loth sur les données de santé montre que 89 % des entrées à l'hôpital peuvent être analysées pour découvrir l'identité de la personne concernée, par simple recoupement avec d'autres informations - date et durée du séjour, date de naissance, code postal. Dans le cas d'une seconde hospitalisation dans le même établissement, la probabilité d'identification grimpe à 100 %... Il faut intervenir.
M. François Pillet , rapporteur . - À certaines personnes entendues lors des auditions, notre mission a paru chercher des prétextes pour freiner l'ouverture des données personnelles. C'est tout le contraire : nous préconisons de poursuivre le développement de l' open data , mais en garantissant solidement la protection des données personnelles.
C'est le premier axe de nos préconisations. Posons le principe que l'administration est tenue de mettre en ligne, en les anonymisant si nécessaire, toutes les bases de données qu'elle détient, déjà diffusées sur un autre support, ou susceptibles d'être communiquées à un citoyen qui en ferait la demande. Cette recommandation risque de recueillir la plus large publicité ; elle est pourtant indissociable des suivantes... L'administration devrait en outre indiquer ce qui fera l'objet d'une mise en ligne, ce qu'elle ne compte pas publier, et en exposer les raisons.
Dix de nos vingt recommandations concernent la mise en oeuvre d'une doctrine de la protection des données personnelles. Nous préconisons d'abord de prévoir dès la conception de la base les modalités de son anonymisation éventuelle, et le marquage des jeux de données afin d'en suivre les réutilisations éventuelles et dénoncer les mésusages qui pourraient en être faits. Ensuite, en cas de risque avéré, impossible à éliminer par des procédés d'anonymisation, l'administration devra refuser l'ouverture des données ou, si le bénéfice social de cette ouverture est très important, procéder à une ouverture restreinte. Nous recommandons en outre d'assurer une veille sur la diffusion et les réutilisations des données publiques, en facilitant les procédures par lesquelles un réutilisateur peut alerter l'administration compétente. Enfin, il serait opportun que l'administration définisse une stratégie de rapatriement ou de suppression des jeux de données compromis par l'inclusion d'informations personnelles.
Renforcer la protection offerte par la licence de réutilisation est un autre chantier majeur. Les données personnelles devraient être explicitement exclues du champ de la réutilisation par la « Licence ouverte » à laquelle est soumise la majeure partie des données publiques mises en ligne par les administrations ; une clause de suspension légitime du droit de réutilisation, de suppression ou de rapatriement des jeux de données compromis lorsqu'un risque de ré-identification est apparu, devrait être intégrée au contrat de licence.
Dernier axe de proposition : adapter la gouvernance de l' open data aux exigences de la protection des données personnelles. Les administrations ne doivent plus être laissées seules face à leurs responsabilités. Nous préconisons de mettre en place auprès d' Etalab une structure dédiée et chargée d'assister les administrations dans l'élaboration de l'étude d'impact préalable, dans l'anonymisation de la base et dans la mise en place d'un mode d'accès restreint. Il conviendrait en outre de recenser les bonnes pratiques.
Les correspondants informatique et libertés (CIL), de même que les personnes responsables de l'accès aux documents administratifs devraient en outre être dotés d'attributions de coordination et de veille en matière de protection des données personnelles. Cela irait de pair avec le renforcement du statut du CIL, proposition déjà formulée par Anne-Marie Escoffier et Yves Détraigne dans leur rapport de mai 2009 sur la protection de la vie privée à l'heure du numérique.
Adapter la gouvernance de l' open data impose également de garantir le financement des mesures d'anonymisation. Une redevance n'est pas nécessairement quelque chose de diabolique. Le financement privé ne doit pas être exclu, non plus que le financement coopératif. Enfin, il conviendrait de clarifier le droit applicable aux données publiques lorsque des données personnelles sont mises en ligne en vertu de la loi : cette publication se limiterait à la stricte mesure nécessaire au respect de l'objet visé par la loi.
M. Jean-Jacques Hyest . - La mission commune d'information relative à l'accès aux documents administratifs, que je préside et dont la création a été demandée par le groupe écologiste, touche à tous ces sujets. Les documents administratifs, ce n'est plus seulement du papier... Nous abordons également la jurisprudence de la CADA - dont vous n'avez pas parlé, mais je ne doute pas que le rapport écrit s'y intéresse. Vous auriez pu insister encore plus sur les risques pesant sur les données personnelles dans le secteur de la santé. La semaine dernière encore, le Monde a consacré une double page aux risques de réutilisation des données de connexion à des fins commerciales... En outre, Etalab , compte tenu de sa structure, ne me semble pas en mesure de jouer un rôle de régulateur. Lui confier des missions plus vastes ne me paraît pas s'imposer.
M. Yves Détraigne . - Je félicite nos deux rapporteurs pour leur remarquable travail, et peux attester que celui de la mission commune d'information présidée par Jean-Jacques Hyest, dont j'ai suivi quelques auditions, l'est tout autant.
La France a joué un rôle pionnier en matière d'accès aux documents administratifs avec la loi CADA. Conservons notre avance dans ce domaine. Nous savons que les enjeux économiques et financiers de l' open data sont énormes, en termes de développement d'applications et de créations d'entreprises. Nous sous-estimons même sans doute leur ampleur. Je salue le travail du Sénat pour éviter que le nécessaire développement de la circulation des données - nécessaire, car nous sommes dans un monde ouvert - ne porte atteinte aux données privées.
Il reste beaucoup à faire. De nouveaux champs seront sans doute investis. Je suis un peu inquiet sur l'avenir du libre-arbitre, dans une société où tout ce qui touche à chacun d'entre nous sera accessible à tous sur la toile.
M. Jean-Pierre Sueur , président . - Vaste question. Nous y reviendrons lorsque la mission commune d'information présidée par Jean-Jacques Hyest aura remis son rapport.
M. François Pillet , rapporteur. - Monsieur Hyest, nous proposons de créer une structure auprès d' Etalab dédiée à la protection des données à caractère personnel et chargée d'assister les administrations. Etalab manque d'agents pour le faire.
M. Gaëtan Gorce , rapporteur . - Il ne faut pas s'en remettre uniquement à la technique, toujours incertaine et dont les progrès poussent à l'ouverture croissante, mais plutôt prendre conscience des problèmes. C'est d'une nouvelle culture, sinon d'une nouvelle sagesse, qu'il s'agit. Chacun, à son niveau, doit prendre les précautions qui s'imposent.
M. Jean-Pierre Sueur , président . - La qualité de ce rapport illustre la pertinence des binômes majorité-opposition.
La commission autorise la publication du rapport d'information.