À Évry-Courcouronnes, l’IA médicale testée

À Télécom SudParis, à Évry-Courcouronnes, ChatGPT Santé ouvre une question de confiance. Le sujet n’est pas seulement de savoir si une IA peut expliquer une analyse de sang ou préparer une consultation. Il est de savoir comment on teste un outil capable de rassurer, de se tromper et d’avoir l’air sûr de lui dans la même phrase.

L’école a publié le 9 juin l’analyse de Nesrine Kaaniche, enseignante-chercheuse en cybersécurité, autour du service lancé par OpenAI aux États-Unis en janvier 2026. ChatGPT Santé est présenté comme une aide pour les patients, afin de comprendre et suivre leurs informations de santé, et comme un appui possible pour les médecins. En médecine, le coût d’une erreur change tout: une recommandation approximative n’a pas le même poids dans une recette de cuisine et dans une question de santé.

La difficulté tient au comportement même des grands modèles de langage. Ils produisent des réponses claires, personnalisées, souvent utiles. Mais la santé supporte mal les bonnes moyennes qui cachent de mauvais accidents. Une IA peut réussir beaucoup de questions simples et devenir dangereuse si elle manque un signe d’urgence, minimise une incertitude ou donne trop tôt une réponse nette à un patient qui n’a pas fourni assez de contexte.

À Samovar, le laboratoire de Télécom SudParis, Nesrine Kaaniche travaille dans l’équipe Sécurité et confiance numérique. Sa page de publications recense des travaux sur la protection de la vie privée, les protocoles sécurisés pour la e-santé, l’apprentissage fédéré attentif à l’équité et l’évaluation intégrée de l’équité algorithmique dans les modèles prédictifs. Autrement dit, la question n’est pas seulement “l’IA répond-elle bien ?”. Elle devient: dans quelles conditions peut-on faire confiance à une réponse produite avec des données sensibles, par un système probabiliste, dans un domaine où les erreurs ne se valent pas?

OpenAI a bien compris que le vieux test scolaire ne suffit plus. Son benchmark HealthBench rassemble 5 000 conversations de santé réalistes, construites avec 262 médecins ayant exercé dans 60 pays. Les réponses sont notées à partir de critères rédigés par des médecins: appel aux urgences, gestion de l’incertitude, recherche du contexte manquant, qualité de communication, profondeur de réponse. Une version plus difficile, HealthBench Hard, concentre 1 000 exemples sur lesquels les modèles actuels peinent encore. Le chiffre important n’est donc pas un score triomphal, mais le fait que l’évaluation cherche désormais les mauvaises réponses, pas seulement les bonnes.

En France, le mouvement se resserre aussi. La Haute Autorité de santé a publié en juin des repères pour les usagers: esprit critique, vigilance sur les données personnelles, recours au professionnel pour l’interprétation et la décision. La CNIL, de son côté, rappelle que développer ou évaluer une IA en santé implique des bases de données, des finalités, des formalités et des contrôles spécifiques.

Ce papier prolonge donc, sans le répéter, le verrou déjà abordé par La Clé Publique sur la confidentialité des données médicales à Télécom SudParis. La confidentialité protège ce que l’on confie à la machine. La fiabilité décide ce que l’on peut croire quand elle répond.

Aucun document disponible ne montre un déploiement local de ChatGPT Santé dans un établissement essonnien. Le rôle d’Évry-Courcouronnes est plus discret: fournir une compétence de recherche sur la confiance numérique au moment où l’IA médicale quitte la démonstration amusante pour entrer dans les usages sensibles. Dans un laboratoire comme Samovar, la santé numérique n’est pas seulement une affaire de prompts. Elle se juge à la réponse qu’on aurait préféré ne jamais lire.