L’évaluation de la confiance : retour sur AITA 2023

17 Avr 2023Qualification de la confiance

L’évaluation de la confiance en intelligence artificielle (IA) est aujourd’hui un sujet incontournable. Alors que les systèmes d’IA sont de plus en plus utilisés dans des domaines critiques, il est crucial de comprendre à quel point les décisions prises par ces systèmes sont fiables et impartiales. L’évaluation de la confiance en IA implique des tests rigoureux pour évaluer la précision et la fiabilité des prédictions et des décisions prises par les modèles d’IA, ainsi que des analyses de la qualité des données utilisées pour entraîner le modèle. Cette évaluation est indispensable pour garantir que les systèmes d’IA sont valides et robustes, sont utilisés de manière éthique et responsable et pour identifier les domaines où les modèles qui peuvent nécessiter une amélioration. C’est cette thématique qui a fait l’objet du premier symposium AITA (AI Trustworthiness Assessment) initié par Juliette Mattioli et Bertrand Braunschweig pour Confiance.ai, avec le soutien de partenaires internationaux, dans le cadre des AAAI Spring Symposium Series qui se sont tenues à San Francisco (USA).

En IA, considérer la « confiance » comme un principe de conception est incontournable, surtout pour les systèmes critiques basés sur l’IA. La caractérisation de la confiance est multidimensionnelle et multicritère et doit être qualifiée tout en tenant compte du contexte d’emploi, des différents niveaux de sûreté et de sécurité, des réglementations, des normes (éthiques, y compris l’équité et la protection de la vie privée), des processus d’homologation et/ou de certification et des différents degrés de responsabilité.

La conférence AITA est née sous l’impulsion d’un groupe constitués de plusieurs initiatives internationales autour de l’IA responsable et de confiance, réuni avec la conviction que, pour augmenter la fiabilité des systèmes critiques basés sur l’IA, il faut être capable d’en mesurer la fiabilité. Ces initiatives sont les suivantes :

  • La France avec Confiance.ai, un programme qui développe un environnement d’ingénierie dit « de confiance » pour les applications de confiance dans les systèmes critiques ;
  • L’Allemagne avec le programme Zertifizierte KI, qui développe la base technologique pour la certification des applications commerciales de l’IA ;
  • Le Canada avec l’Institut IVADO, qui lance actuellement au Québec une initiative sur des sujets similaires ;
  • Et le réseau européen TAILOR, qui place la fiabilité au cœur de ses activités de recherche.

 

Au cours de ces deux jours et demi d’événement, plusieurs conclusions sont à tirer :

  • L’évaluation est un facteur limitant : « Si l’on veut améliorer la confiance, il faut la mesurer ».
  • Une vision holistique et systémique multidimensionnelle est nécessaire car les applications dépendent du contexte et s’adressent à une variété d’utilisateurs et de parties prenantes ;
  • L’évaluation de la confiance est une combinaison de caractéristiques basées sur le processus et sur le produit. Aucune de ces deux dimensions n’est suffisante à elle seule ;
  • Les listes de contrôle et les approches qualitatives ne sont qu’un début : même si elle est plus difficile, l’évaluation quantitative de facteurs tels que la robustesse, les biais, la sécurité, la qualité des données… est indispensable ;
  • Sachant cela, il est également essentiel de prêter attention au rapport coût-bénéfice de cette évaluation quantitative.

 

Stefan Wrobel a présenté la conclusion lors de la séance plénière du « Spring AAAI Symposium ». Trois axes doivent être considérés : les algorithmes, la réglementation et les normes et le contexte.  En effet, les méthodes conventionnelles de test et de validation des algorithmes sont insuffisantes en raison de la nature multidimensionnelle de la confiance : responsabilité, précision, contrôlabilité, exactitude, qualité des données, fiabilité, résilience, robustesse, sûreté, sécurité, transparence, explicabilité, équité, respect de la vie privée… La conception de systèmes à base d’IA met en exergue les exigences de qualité (« -ilities », ou exigences non fonctionnelles) qui semblent particulièrement difficiles à satisfaire. Au-delà des exigences de qualité, ces exigences peuvent également englober des considérations relatives aux risques et aux processus. Les attributs attendus et les valeurs attendues pour ces attributs dépendent d’éléments contextuels tels que le niveau de criticité de l’application, le domaine d’application du système basé sur l’IA, l’utilisation prévue, la nature des parties prenantes impliquées, etc. Cela signifie que dans certains contextes, certains attributs prévaudront et que d’autres attributs pourront être ajoutés à la liste. Enfin, la confiance totale dans les systèmes d’IA ne peut être établie que si toutes les activités techniques visant à établir la confiance sont accompagnées de réglementations, de normes et de standards pour soutenir la gouvernance et les processus des organisations qui utilisent, développent et déploient l’IA.

 

Au-delà de ces conclusions, 35 chercheurs et ingénieurs ont assisté à 18 présentations éclairantes ; des exposés passionnants de Freddy Lecue (J.P. Morgan – USA) sur l’IA explicable dans la finance, Stefan Wrobel (Fraunhofer IAIS – GE) sur les algorithmes d’IA fiables et les systèmes certifiés d’IA, Christophe Labreuche (Thales – FR) sur l’aide à la décision multicritère pour l’évaluation de la fiabilité, Elham Tabassi (NIST – USA) sur le cadre de gestion des risques de l’IA et Maximilian Poretschkin (Fraunhofer IAIS – GE) sur l’initiative Zertifizierte KI ; le tout suivi d’intenses discussions.

Le programme Confiance.ai a d’ailleurs présenté quatre papiers :

  1. An overview of key trustworthiness attributes and KPIs for trusted ML-based systems engineering – Juliette Mattioli, Henri Sohier, Agnes Delaborde, Kahina Amokrane-Ferka, Afef Awadid, Zakaria Chihani, Souhaiel Khalfaoui, Gabriel Pedroza
  2. Neighborhood Sampling Confidence Metric for Object Detection – Christophe Gouguenheim, Ahmad Berjaoui
  3. Real-time Weather Monitoring and Desnowification through Image Purification – Eliott Py , Elies Gherbi , Nelson Fernandez Pinto, Martin Gonzalez , Hatem Hajri
  4. Protecting ownership rights of ML models using watermarking in the light of adversarial attacks – Katarzyna Kapusta, Lucas Mattioli, Boussad Addad, Mohammed Lansari

 

C’est le début d’une nouvelle communauté de recherche qui se développera au fil des ans grâce à ce premier événement soutenu par l’AAAI.

 

Un article rédigé par Juliette Mattioli, président du comité de pilotage de Confiance.ai et Bertrand Braunschweig, coordonnateur scientifique du programme Confiance.ai