L’interaction entre vie privée, apprentissage automatique et intelligence artificielle

Entretien avec Ben Lorica, directeur scientifique, O’Reilly Media

Le rapport présente les tendances actuelles dans la recherche sur l’intelligence artificielle. Quel est, selon vous, le moteur de l’innovation à l’heure actuelle?

Le regain d’intérêt pour l’intelligence artificielle a été alimenté par des percées dans les domaines du matériel et de l’apprentissage automatique, en particulier l’apprentissage profond et l’apprentissage par renforcement. Les deux méthodes sont notoirement des techniques gourmandes en données et l’importance de générer ou de collecter des données (étiquetées) afin d’entraîner ces algorithmes ne peut être minimisée.

La protection de la confidentialité des données est devenue, à notre époque, une question centrale tant pour les utilisateurs que pour les régulateurs. Les utilisateurs exigent plus de transparence et de contrôle sur la façon dont les données sont collectées, stockées, utilisées et partagées.
Ben Lorica

La protection de la confidentialité des données est devenue, à notre époque, une question centrale tant pour les utilisateurs que pour les régulateurs. Les utilisateurs exigent plus de transparence et de contrôle sur la façon dont les données sont collectées, stockées, utilisées et partagées. Dans divers endroits, les régulateurs ont adopté une réglementation appelée à faire date en matière de confidentialité des données : par exemple, l’Europe (GDPR) et la Californie (Consumer Privacy Act) ont placé des concepts tels que la transparence, le “contrôle utilisateur” et le “privacy by design” (protection de la vie privée dès la conception) au premier plan pour les entreprises souhaitant utiliser des données.

Comment les organisations intègrent-elles l’analyse dans leurs services à une époque où la confidentialité des données est devenue essentielle?

Les organisations utilisent généralement les données pour réaliser deux activités principales : améliorer la prise de décision (grâce à l’informatique décisionnelle) ou permettre l’automatisation (au moyen de l’apprentissage automatique et de l’intelligence artificielle). Il s’avère qu’il existe un nouvel ensemble de méthodes et d’outils de protection de la confidentialité des données permettant de créer des systèmes combinant l’informatique décisionnelle et l’apprentissage automatique.

Dans de nombreux contextes, l’informatique décisionnelle s’appuie sur une base de données. La collaboration entre Uber et le RISE Lab de l’Université de Californie à Berkeley a donné lieu à l’élaboration d’un instrument à code source ouvert qui permet aux analystes de soumettre des requêtes et d’obtenir des résultats conformes à l’état de la technique en matière de confidentialité différentielle (une garantie formelle qui offre de solides assurances en matière de confidentialité). Cet instrument à code source ouvert ouvre la voie à l’informatique décisionnelle préservant la confidentialité au sein d’un grand nombre d’organisations. Plus impressionnant encore, la confidentialité différentielle peut s’étendre à des millions de dispositifs qui génèrent des données en temps réel. Apple, Microsoft et Google ont mis au point des outils d’analyse décisionnelle préservant la confidentialité pour les services prenant en charge les téléphones mobiles et les compteurs intelligents.

Les chercheurs et les entrepreneurs élaborent activement des méthodes et des outils de préservation de la confidentialité pour l’intelligence artificielle. Dans les milieux de l’apprentissage automatique, il est depuis longtemps admis que des techniques simples d’anonymisation des données peuvent présenter un risque pour la confidentialité des données des utilisateurs (les attaques visant à désanonymiser le Prix Netflix en constituent l’un des premiers exemples). Voici quelques exemples de techniques récentes de préservation de la confidentialité dans l’apprentissage automatique :

Apprentissage fédéré: créé par Google, il permet d’entraîner un modèle centralisé d’apprentissage automatique sans partager des données et, par conséquent, convient parfaitement pour les appareils mobiles.
Confidentialité différentielle: l'interaction entre la confidentialité différentielle et l’apprentissage automatique continue d’être un domaine de recherche actif et les chercheurs commencent à examiner des modèles d’apprentissage profond qui soient conformes à la confidentialité différentielle.
Cryptographie homomorphe: il s’agit d’un domaine naissant dont l’objectif est de développer une classe d’outils permettant de calculer des modèles complexes sur des données cryptées. Des travaux préliminaires ont été menés en vision par ordinateur et en traitement de la parole.
Décentralisation: ce domaine est principalement piloté par les jeunes entreprises qui cherchent à utiliser des chaînes de blocs, des ledgers distribués et des structures d’incitation reposant sur des cryptomonnaies. Par exemple, Computable Labs est en train de créer une infrastructure décentralisée à code source ouvert qui permettra aux entreprises de partager des données et des modèles de manière sécurisée. Leur objectif est de “rendre les réseaux de chaînes de blocs compatibles avec les calculs d’apprentissage automatique”.

Alors que les utilisateurs et les régulateurs soulignent l’importance des entreprises menant des activités dans le domaine de la protection de la confidentialité des données, les milieux actifs dans l’utilisation des données se mobilisent pour créer des outils de préservation de la confidentialité pour les tout prochains systèmes d’intelligence artificielle.

Quels ouvrages connexes existe-t-il sur ce sujet?

Collecte de données et marchés des données à l’ère de la confidentialité et de l’apprentissage automatique
Élaborer des outils pour les applications d’intelligence artificielle de demain : nous jetons actuellement les bases des futures générations d’applications d’intelligence artificielle, mais nous n’en sommes pas encore là
Le rôle de l’apprentissage automatique dans la mise au point de logiciels