La interacción de la privacidad, el aprendizaje automático y la inteligencia artificial

Entrevista con Ben Lorica, científico jefe de datos, O'Reilly Media

En el informe se señalan las tendencias actuales en investigación en el ámbito de la IA. ¿Cuál cree que es el motor de la innovación en este momento?

El rebrote del interés por la IA es fruto de los grandes avances realizados en el aprendizaje automático y de los equipos informáticos, en particular el aprendizaje profundo y el aprendizaje por refuerzo. Es sabido que ambos son técnicas que requieren una gran cantidad de datos y no se puede minimizar la importancia de generar o recopilar datos (etiquetados) para entrenar esos algoritmos.

Estamos en un momento en el que la privacidad de los datos es una cuestión central tanto para los usuarios como para los organismos reguladores. Los usuarios exigen más transparencia y control sobre la forma en que se recopilan, almacenan, utilizan y comparten los datos.
Ben Lorica

Estamos en un momento en el que la privacidad de los datos es una cuestión central tanto para los usuarios como para los organismos reguladores. Los usuarios exigen más transparencia y control sobre la forma en que se recopilan, almacenan, utilizan y comparten los datos. En muchos lugares, los organismos reguladores han introducido normas de privacidad de datos que serán un punto de referencia: en la Unión Europea, el Reglamento General de Protección de Datos (RGPD) y en California, la Consumer Privacy Act (Ley de protección de la privacidad de los consumidores) han puesto conceptos como el de transparencia, "control del usuario" y "privacidad desde el origen" en primera plana para las empresas que desean desarrollar productos basados en datos.

¿Cómo utilizan las organizaciones el análisis en los servicios en una época en la que la privacidad de los datos se ha vuelto fundamental?

Por lo general utilizan los datos con dos finalidades principales: mejorar la toma de decisiones (a través de la inteligencia institucional) y fomentar la automatización (mediante el aprendizaje automático y la IA). Existe un nuevo conjunto de métodos y herramientas que preservan la privacidad a la hora de construir sistemas que se basan en la inteligencia institucional y el aprendizaje automático.

En muchos casos, la inteligencia institucional depende de una base de datos. Fruto de la colaboración entre Uber y RISE Lab de UC Berkeley se cuenta hoy con una herramienta de código abierto que permite a los analistas hacer consultas y obtener resultados que respetan los estándares más avanzados de privacidad diferencial (una garantía formal que proporciona sólidas salvaguardias de seguridad de la privacidad). En muchas organizaciones, esa herramienta será el punto de partida de una inteligencia institucional que respete la privacidad. Y lo que todavía es más notable: la privacidad diferencial puede expandirse a millones de dispositivos que generan datos en tiempo real. Apple, Microsoft y Google cuentan con herramientas analíticas que preservan la privacidad de los servicios para teléfonos móviles y contadores inteligentes.

Investigadores y empresarios se están movilizando activamente para crear métodos y herramientas de preservación de la privacidad para la IA. Hace tiempo que los especialistas en aprendizaje automático coinciden en que las técnicas sencillas de anonimización de datos pueden poner en peligro la privacidad de los usuarios (uno de los primeros ejemplos es el de los intentos de desanonimización del Premio Netflix). A continuación se citan algunas técnicas recientes de conservación de la privacidad en el aprendizaje automático:

Aprendizaje federado: introducido por Google permite adiestrar un modelo centralizado de aprendizaje automático sin intercambio de datos, y por lo tanto, se presta muy bien a los servicios de los dispositivos móviles.
Privacidad diferencial: se sigue investigando en la interacción de la privacidad diferencial y el aprendizaje automático y los expertos están empezando a examinar modelos de aprendizaje profundo que se atienen a la privacidad diferencial.
Encriptado homomórfico: es un campo incipiente cuyo objetivo es desarrollar herramientas que permitan la computación de modelos complejos a partir de datos encriptados. Las investigaciones preliminares se han centrado en las tecnologías de visión por computadora y tecnologías del habla.
Descentralización: se trata de un ámbito manejado principalmente por las nuevas empresas que desean utilizar cadenas de bloques, contabilizadores distribuidos y estructuras de incentivos que utilizan criptodivisas. Por ejemplo, Computable Labs está construyendo una infraestructura descentralizada de código abierto que permitirá a las empresas compartir datos y modelos de forma segura. La finalidad es que “las redes de cadenas de bloques sean compatibles con los procesos de aprendizaje automático”.

Usuarios y organismos reguladores insisten hoy en la importancia de la protección de datos en las empresas, por lo que los profesionales de datos se están movilizando para crear herramientas de protección de la privacidad en los sistemas de inteligencia artificial que se utilizarán en el futuro próximo.

¿Qué otros artículos recomienda sobre este tema?

Data collection and data markets in the age of privacy and machine learning
Building tools for the AI applications of tomorrow: we’re currently laying the foundation for future generations of AI applications, but we aren’t there yet
What machine learning means for software development