D. LE CHOIX DE LA TECHNOLOGIE : QUELS MODÈLES POUR QUELS BESOINS ?

On considère généralement que les progrès de l'IA intervenus au cours des dernières années sont dus à trois facteurs : la sophistication des modèles, certes, mais aussi et surtout la quantité de données disponibles, et plus encore l'explosion de la puissance de calcul. Ces mêmes conditions se retrouvent pour les usages de l'IA dans la sphère fiscale et sociale.

Les modèles peuvent être ouverts (open source) ou fermés (modèles propriétaires), généralistes ou spécialisés, gratuits ou payants, plus ou moins performants, etc. Ici, une approche proportionnée aux cas d'usage s'impose : s'il est évidemment exclu d'utiliser des modèles fermés, dont on ne maîtrise pas les paramètres, pour traiter des données sensibles ou issues de systèmes d'information critiques, de même qu'il est exclu d'entraîner des modèles à partir de données internes sur une infrastructure cloud dont l'administration n'aurait pas la maîtrise, des expérimentations (POC) sur des données anonymisées ou des usages généralistes (traduction, synthèse, génération de code, etc.) peuvent tout à fait s'accommoder de solutions grand public, y compris ChatGPT le cas échéant.

L'essentiel, ici, consiste à définir une doctrine et à mettre en place les garde-fous nécessaires (environnement dédié, etc.). Il n'est évidemment pas question qu'un agent du contrôle fiscal demande à ChatGPT d'analyser pour lui un dossier - en revanche, il pourrait être utile que chacun se rende compte de ce qu'il est possible d'en attendre.

« Ces ingrédients ne dessinent toutefois pas une stratégie, qui devra éviter deux écueils. D'une part le “grand projet IA”, destiné à tout faire, tout remplacer, développé loin des agents, des usagers et de la réalité du service public. D'autre part le “tout ChatGPT”, dans lequel un robot conversationnel universel commercial et étranger deviendrait la seule utilisation de l'IA dans le service public. »

Rapport de la Commission IA, mars 2024

E. L'ACCÈS AUX DONNÉES : L'ENJEU DES ÉCHANGES D'INFORMATIONS

S'agissant de l'accès aux données, à la fois pour entraîner les modèles et pour les utiliser, les administrations fiscales et sociales se trouvent dans une situation particulièrement favorable, et sans équivalent dans le service public : les données dont elles ont besoin sont des données internes, déjà disponibles, et dont l'exploitation est déjà autorisée, et déjà très encadrée. Ce sont aussi des données massives, exhaustives, fiables, homogènes, uniques et gratuites. En théorie, l'accès à des données de qualité et en grandes quantités ne constitue donc pas un problème ici, à la différence d'autres domaines - la santé, par exemple - où il s'agit d'un enjeu majeur.

Encore faut-il pouvoir effectivement et facilement y accéder, pour tester des cas d'usage, entraîner des modèles, puis les utiliser. Le défi à relever n'est pas d'ordre juridique, mais d'ordre technique, et d'ordre « culturel ».

En interne, les données demeurent cloisonnées, et l'accès est compliqué non seulement par le manque d'interconnexion des SI (cf. supra), et par la lourdeur des procédures. Avec la généralisation des datalakes, tels que celui du pôle datamining de la DGFiP ou de la mission « Valorisation des données » de la douane, le pas essentiel a été franchi. Il reste à en ouvrir l'accès, progressivement et sous l'autorité des services en charge, aux porteurs de projets issus des services de terrain.

Le véritable problème reste celui des échanges d'informations entre administrations : ceux-ci sont prévus par une série de protocoles ad hoc signés de façon bilatérale et au cas par cas, ils portent encore sur un nombre limité de traitements de données, et leur mise en oeuvre concrète se heurte à de nombreux obstacles techniques et administratifs. Le législateur a pourtant depuis longtemps mis en place le cadre nécessaire à la généralisation de ces échanges, et ceux-ci faisaient partie des priorités du plan de lutte contre les fraudes annoncé par Gabriel Attal.

« mesure en finalisation / à venir »

À titre d'exemple, sur les 35 mesures du plan de lutte contre les fraudes de 2023, près de la moitié de celles qui n'ont pas encore été mises en oeuvre concernent les échanges d'informations :

- accès de la CNAV au fichier Ficoba ;

- base interministérielle de RIB frauduleux ;

- accès au fichier PNR pour repérer les fraudes à la fausse résidence ;

- « améliorer le partage d'informations entre services de lutte contre les fraudes » ;

- partenariat DGFiP/DGDDI ;

- partenariat DGFiP/Urssaf ;

- coopération CNAM/complémentaires santé.

Les auditions ont permis de confirmer que ces échanges étaient insuffisants, et que même les simples réunions de coordination entre services chargés des mêmes missions dans des administrations similaires n'avaient lieu que très occasionnellement.

Partager cette page