III. L'IA GÉNÉRATIVE : FRAUDE COMPLEXE, POIDS DU TEXTE

Si l'IA d'une manière générale apparaît sous-utilisée dans la lutte contre la fraude, l'IA générative, quant à elle, reste à ce jour totalement absente. Elle ouvre pourtant la voie à toute une nouvelle gamme de possibilités, du fait de ses capacités spécifiques en matière de traitement des données non structurées, et notamment des données textuelles, y compris en langage naturel.

Bien sûr, il n'y a ni solution miracle, ni produit sur étagère : on ne parle pas ici d'utiliser ChatGPT pour faire du contrôle fiscal, mais plutôt de s'appuyer sur les possibilités offertes par les grands modèles de langage généralistes pour concevoir des outils spécifiques et adaptés à la matière - ce qui demandera du temps et des moyens, des précautions et de l'imagination, des essais et des erreurs.

Un premier avantage de l'IA générative est de permettre le décloisonnement de l'information (cf. Partie I), défi majeur pour des administrations dont les applications sont historiquement construites en silo et peu interopérables. C'est notamment le cas à la DGFiP, comme l'a plusieurs fois souligné la Cour des comptes au cours des dernières années. La priorité, bien sûr, est de poursuivre l'effort de modernisation et de refonte des SI, mais ces grands chantiers informatiques sont longs, coûteux et risqués. Dans ce contexte, l'IA générative pourrait avoir un intérêt, au moins comme expédient, voire de façon pérenne comme interface ergonomique, sous la forme d'un chatbot - « PilatGPT » ? - à la disposition des agents du contrôle fiscal pour recouper les informations.

Le contrôle fiscal à la DGFiP : un cas d'école du cloisonnement des systèmes d'information

« L'architecture des SI utilisés dans le cadre du contrôle fiscal repose sur des bases de données et des applications très nombreuses, anciennes, peu ergonomiques et souvent non interopérables. Ces bases ont été construites pour répondre à des besoins métiers spécifiques, alors que la détection des risques de fraude fiscale suppose souvent de rapprocher les données. Ces constats restent largement d'actualité. La conception en silo des SI [...] rend difficile, voire impossible la traçabilité des actions qui ponctuent un dossier de fraude, de la détection d'une anomalie au recouvrement des sommes éludées et des pénalités après contrôle. [...]

« Pour [y] remédier, la DGFiP a lancé en 2018 le projet PILAT, outil unifié de pilotage et d'analyse de la chaîne du contrôle fiscal [...]. Mais PILAT accuse aujourd'hui un retard de plus de deux ans et sa mise en service est désormais attendue pour la fin du premier trimestre 2024 [...]. Le coût prévisionnel du projet a presque triplé, passant de 36 millions d'euros estimé en 2017 à 103,2 millions d'euros en 2023.

« La DGFiP assure que PILAT permettra de suivre une chaîne continue [...]. Toutefois, dans la première version de l'application, il n'y aura toujours pas de correspondance stricte entre motifs de contrôle et irrégularités constatées (celles-ci pouvant différer des premiers), ce qui risque de nuire, de manière persistante, à l'évaluation de la pertinence du motif de programmation. »

Source : Cour des comptes, La détection de la fraude fiscale des particuliers,
rapport d'initiative citoyenne, novembre 2023

Surtout, le grand intérêt de l'IA générative tient à ses capacités en matière de traitement du langage naturel : après les chiffres, ce sont désormais les textes, aussi divers et hétérogènes soient-ils, qui peuvent faire l'objet d'une exploitation automatisée. Si l'ensemble du contrôle fiscal pourrait s'en trouver « augmenté », plusieurs domaines en particulier pourraient y gagner en efficacité, en raison de la place importante des textes et de la complexité des tâches et procédures. Ces domaines se recoupent en partie :

la lutte contre la fraude et l'évasion fiscales internationales, qu'elle soit le fait des particuliers ou des entreprises ;

le renseignement fiscal et les enquêtes fiscales, au niveau administratif comme judiciaire ;

les dossiers à fort enjeu et la fraude complexe ;

la lutte contre la fraude sur Internet.

Le cas de la lutte contre la fraude et l'évasion fiscales internationales

Dans ce domaine, les données textuelles comptent souvent davantage que les chiffres. Par exemple, pour la taxation des bénéfices d'une multinationale, l'enjeu n'est pas tant de connaître le montant du chiffre d'affaires que de déterminer la part de celui-ci qui doit être soumise à l'impôt sur les sociétés sur le territoire français. L'interprétation de la loi fiscale et le raisonnement juridique ont ici une importance cruciale, car ils déterminent la frontière entre ce qui relève de l'optimisation légale d'une part, et les pratiques illégales (voire frauduleuses) d'autre part.

Cette tâche implique le traitement d'informations à la fois nombreuses et hétérogènes, avec des données structurées (comptables) et non structurées (textuelles), avec :

d'une part, les données déclarées par les contribuables ou communiquées par des tiers : documentation relative aux prix de transfert, mémoires et analyses juridiques, etc. ;

d'autre part, les documents de référence de l'administration : textes législatifs et réglementaires, normes européennes, conventions fiscales, rescrits, doctrine, jurisprudence, description des montages frauduleux, circulaires et instructions diverses, etc.

Les données sont d'autant plus hétérogènes qu'elles proviennent fréquemment de sources étrangères (déclaration souscrite dans un autre pays, information communiquée par une administration étrangère, etc.). À défaut de faire foi devant un juge, une traduction par une IA générative pourrait a minima faire gagner un temps précieux aux agents dans leur travail - à condition, bien sûr, de ne pas utiliser directement ChatGPT pour traduire des documents couverts par le secret fiscal.

Enfin, pour les dossiers les plus complexes, les procédures peuvent prendre des années, à la fois au stade administratif (enquête fiscale, vérification de comptabilité, recours hiérarchique, etc.) et au stade judiciaire (enquêtes pour fraude fiscale, blanchiment, etc.). L'IA générative est capable de résumer dix ans de procédure en deux pages, de faire ressortir les points importants, et demain, avec un peu de fine-tuning, de repérer des erreurs ou de suggérer d'autres approches. De telles capacités ne peuvent être ignorées.

Partager cette page