Le mois dernier, GOV.UK a discrètement publié les résultats de son essai sur les assistants de programmation basés sur l'IA. Pas de fanfare. Pas de conférence de presse ministérielle. Juste des données concrètes montrant que plus de 1 000 développeurs répartis dans 50 ministères avaient gagné près d'une heure par jour grâce à l'utilisation d'outils d'IA.
Après avoir évoqué la débâcle du projet Microsoft Copilot, d'un coût de 54 000 livres sterling, qui n'avait apporté que des gains de productivité « extrêmement modestes », cette situation semblait quelque peu différente. Le même gouvernement qui avait bâclé le déploiement d'une IA dans un domaine avait, parallèlement, parfaitement réussi celui d'une autre.
Alors, qu'ont-ils fait de différent ?
La phase d'essai de l'AI Coding Assistant (AICA) s'est déroulée de novembre 2024 à février 2025. Contrairement à l'approche « à l'aveuglette » de Copilot, celle-ci était ciblée : 2 500 licences ont été proposées à des développeurs qui gagnent réellement leur vie en programmant. Les résultats ont été significatifs.
Le gain de temps s'est élevé en moyenne à 56 minutes par jour ouvré. Cela représente 28 jours ouvrés gagnés par développeur chaque année. Pas 2,2 heures par semaine comme lors d'autres essais, mais près d'une heure chaque jour.
Mais surtout, les indicateurs de satisfaction révélaient une toute autre réalité :
- 72 % ont déclaré que ces outils offraient un bon rapport qualité-prix pour leur organisation
- 58 % ne souhaiteraient pas revenir à un travail sans l'aide de l'IA
- 65 % ont accompli leurs tâches plus rapidement, 56 % ont résolu les problèmes plus efficacement
En comparaison, lors de l'essai général de Copilot, seuls 30 % des utilisateurs s'en servaient quotidiennement et la plupart n'étaient pas en mesure de déterminer quand l'IA inventait des choses.
Ce qu'ils ont bien fait : les bases
Ils ont choisi les bonnes personnes. Au lieu de sélectionner des fonctionnaires au hasard en espérant que tout se passe bien, ils ont ciblé des développeurs, c'est-à-dire des personnes qui maîtrisaient déjà la révision de code, le débogage et le contrôle qualité. Ces utilisateurs disposaient des compétences nécessaires pour évaluer de manière critique les résultats générés par l'IA.
Ils ont choisi des outils adaptés. GitHub, Copilot et Google Gemini Code Assist ne sont pas parfaits, mais ils ont été spécialement conçus pour les tâches de programmation. Ces outils étaient parfaitement adaptés à la tâche, contrairement aux chatbots polyvalents à qui l'on demande de tout révolutionner.
Ils ont mesuré ce qui comptait vraiment. Plutôt que de se contenter de vagues promesses de productivité, ils ont suivi des indicateurs précis : le temps gagné lors de la création, de l'analyse et de la révision du code. Les données montrent que les développeurs ont gagné 24 minutes par jour rien qu'en codage et en analyse.
Ils ont respecté les normes de qualité. Seuls 15,8 % du code proposé par l'IA ont été acceptés sans modification. Cela montre que les développeurs ont fait leur travail comme il se doit, en révisant et en améliorant les résultats fournis par l'IA plutôt que de les accepter aveuglément.
La dimension humaine préservée
L'une des différences les plus frappantes de cette expérience est qu'elle ne visait pas à remplacer les développeurs. L'objectif était plutôt de renforcer leurs compétences existantes.
Les 39 % d'utilisateurs ayant déclaré avoir utilisé du code suggéré par l'IA continuaient de prendre des décisions éclairées quant à ce qu'ils devaient accepter, modifier ou rejeter. L'IA est ainsi devenue un outil de saisie semi-automatique sophistiqué, et non un programmeur de substitution.
Comme le disent les experts de la Gen AI Academy :
«Les meilleures applications de l'IA n'éliminent pas le jugement humain ; elles fournissent aux humains une meilleure base de travail. » Erik Schwartz
« La plupart des réussites que j’ai observées chez les entreprises engagées dans cette démarche tiennent au fait qu’elles partent des utilisateurs, de leurs difficultés ou de leurs lacunes, et qu’elles leur permettent, grâce à la formation et à l’accompagnement, d’intégrer les bons outils. Avec des règles de base et des objectifs clairs, elles peuvent y contribuer et en mesurer les résultats. » Hugo MC Pinto
Cette expérience a été couronnée de succès précisément parce qu'elle a su préserver l'aspect humain qui rend possible un développement logiciel de qualité : l'esprit critique, le contrôle qualité et la compréhension du contexte.
Pourquoi cela a de l'importance au-delà du cadre gouvernemental
Ce projet pilote de codage fournit un modèle pour une mise en œuvre réussie de l'IA partout :
Commencez par des utilisateurs expérimentés. Ne vous attendez pas à ce que l'IA transforme comme par magie des personnes inexpérimentées en experts. Confiez-la à des personnes qui maîtrisent déjà le domaine et sont capables d'évaluer les résultats.
Adaptez les outils aux tâches. Cessez d'essayer d'utiliser l'IA générale pour tout. Les outils spécialisés sont plus efficaces pour les tâches spécialisées.
Mesurez des résultats concrets. Une « augmentation de la productivité » n'a aucun sens. « 24 minutes gagnées sur la création de code », voilà une donnée exploitable.
Attendez-vous à une intervention humaine. Si 85 % des résultats générés par l'IA doivent être corrigés, ce n'est pas un bug : cela fonctionne comme prévu.
La vérité dérangeante sur le succès de l'IA
L'expérience de programmation menée par le gouvernement a été couronnée de succès parce qu'elle était sans prétention. Pas de grandes promesses de transformation. Pas d'affirmations selon lesquelles elle allait remplacer des services entiers. Juste une question simple : l'IA peut-elle aider les développeurs à écrire du code plus rapidement ?
La réponse était oui, à condition d'assurer une mise en œuvre adéquate, une formation appropriée et des attentes réalistes.
La plupart des entreprises échouent dans leur utilisation de l'IA parce qu'elles tentent de résoudre le mauvais problème. Elles veulent que l'IA remédie à leurs dysfonctionnements, supprime leurs besoins en formation ou transforme leur culture d'entreprise. Le projet pilote du gouvernement en matière de programmation a fonctionné parce qu'il avait un objectif simple : rendre les bons développeurs un peu plus efficaces.
Et maintenant ?
Les résultats de l'essai n'ont aucune incidence sur les futurs marchés publics – apparemment, cette décision relève d'une autre instance au sein du gouvernement. Toutefois, cette réussite offre un modèle que d'autres ministères (et organisations) devraient étudier attentivement.
La différence entre cet essai et l'échec de Copilot réside principalement dans la mise en œuvre, la sélection des utilisateurs et la nécessité d'avoir des attentes réalistes et vérifiables quant à ce que l'IA est réellement capable de faire.
Lorsque j'ai évoqué l'expérience Copilot, plusieurs personnes m'ont demandé si je pensais que l'IA dans le secteur public était vouée à l'échec. Cette expérience de programmation suggère que ce n'est pas le cas, mais pour qu'elle soit couronnée de succès, il faut s'y atteler sérieusement plutôt que d'espérer que la technologie à elle seule résolve les problèmes organisationnels.
Le gouvernement a adopté la bonne approche vis-à-vis de l'IA en la considérant comme un outil sophistiqué nécessitant des utilisateurs qualifiés, et non comme une formule magique capable de transformer n'importe qui en expert. C'est une leçon que tout responsable de la mise en œuvre de l'IA, que ce soit à Whitehall ou dans une start-up locale, aurait tout intérêt à retenir.
Helena McAleer est la cofondatrice de thegenAIacademy.com . Elle met en relation les organisations qui mettent en œuvre l'IA avec des experts du terrain qui savent comment obtenir des résultats de la bonne manière – et oui, elle utilise toujours le tiret long !