Le regain d’intérêt pour l’intelligence artificielle a été alimenté par des percées dans les domaines du matériel et de l’apprentissage automatique, en particulier l’apprentissage profond et l’apprentissage par renforcement. Les deux méthodes sont notoirement des techniques gourmandes en données et l’importance de générer ou de collecter des données (étiquetées) afin d’entraîner ces algorithmes ne peut être minimisée.
La protection de la confidentialité des données est devenue, à notre époque, une question centrale tant pour les utilisateurs que pour les régulateurs. Les utilisateurs exigent plus de transparence et de contrôle sur la façon dont les données sont collectées, stockées, utilisées et partagées.
Ben Lorica
La protection de la confidentialité des données est devenue, à notre époque, une question centrale tant pour les utilisateurs que pour les régulateurs. Les utilisateurs exigent plus de transparence et de contrôle sur la façon dont les données sont collectées, stockées, utilisées et partagées. Dans divers endroits, les régulateurs ont adopté une réglementation appelée à faire date en matière de confidentialité des données : par exemple, l’Europe (GDPR) et la Californie (Consumer Privacy Act) ont placé des concepts tels que la transparence, le “contrôle utilisateur” et le “privacy by design” (protection de la vie privée dès la conception) au premier plan pour les entreprises souhaitant utiliser des données.
Les organisations utilisent généralement les données pour réaliser deux activités principales : améliorer la prise de décision (grâce à l’informatique décisionnelle) ou permettre l’automatisation (au moyen de l’apprentissage automatique et de l’intelligence artificielle). Il s’avère qu’il existe un nouvel ensemble de méthodes et d’outils de protection de la confidentialité des données permettant de créer des systèmes combinant l’informatique décisionnelle et l’apprentissage automatique.
Dans de nombreux contextes, l’informatique décisionnelle s’appuie sur une base de données. La collaboration entre Uber et le RISE Lab de l’Université de Californie à Berkeley a donné lieu à l’élaboration d’un instrument à code source ouvert qui permet aux analystes de soumettre des requêtes et d’obtenir des résultats conformes à l’état de la technique en matière de confidentialité différentielle (une garantie formelle qui offre de solides assurances en matière de confidentialité). Cet instrument à code source ouvert ouvre la voie à l’informatique décisionnelle préservant la confidentialité au sein d’un grand nombre d’organisations. Plus impressionnant encore, la confidentialité différentielle peut s’étendre à des millions de dispositifs qui génèrent des données en temps réel. Apple, Microsoft et Google ont mis au point des outils d’analyse décisionnelle préservant la confidentialité pour les services prenant en charge les téléphones mobiles et les compteurs intelligents.
Les chercheurs et les entrepreneurs élaborent activement des méthodes et des outils de préservation de la confidentialité pour l’intelligence artificielle. Dans les milieux de l’apprentissage automatique, il est depuis longtemps admis que des techniques simples d’anonymisation des données peuvent présenter un risque pour la confidentialité des données des utilisateurs (les attaques visant à désanonymiser le Prix Netflix en constituent l’un des premiers exemples). Voici quelques exemples de techniques récentes de préservation de la confidentialité dans l’apprentissage automatique :
Alors que les utilisateurs et les régulateurs soulignent l’importance des entreprises menant des activités dans le domaine de la protection de la confidentialité des données, les milieux actifs dans l’utilisation des données se mobilisent pour créer des outils de préservation de la confidentialité pour les tout prochains systèmes d’intelligence artificielle.