Apheris: la solución para el dilema de la privacidad de los datos
James Nurton, escritor independiente
¿Cómo introducir herramientas sofisticadas de inteligencia artificial (IA) sin renunciar a la privacidad y a la protección de la propiedad intelectual de los datos? Apheris, una empresa emergente con sede en Berlín, cree que la respuesta es el aprendizaje federado.
En su discurso de apertura de la cuarta sesión del Diálogo de la OMPI sobre la PI y las tecnologías de vanguardia, celebrada en septiembre de 2021 (léase: “Los datos son el combustible de la transformación de la economía mundial“), el director general de la OMPI, Daren Tang, describió los datos como el “combustible” que impulsa la digitalización. Los algoritmos de aprendizaje automático necesitan grandes cantidades de datos para aprender, pero ¿qué sucede cuando el flujo de combustible se interrumpe, es decir, cuando no se pueden compartir los datos por razones de privacidad, seguridad o protección de la propiedad intelectual (PI)?
Una solución a este problema es lo que se conoce como aprendizaje federado, un proceso en el que los datos nunca llegan a salir de la esfera de control de su propietario. En este proceso, los algoritmos de aprendizaje automático se entrenan con los datos de forma local, sin que sea necesario compartirlos. Un ejemplo sencillo sería el de una empresa farmacéutica que utiliza datos sensibles de un hospital, como los registros de pacientes, para desarrollar un nuevo medicamento, sin que el hospital tenga que revelar ningún dato. En casos más sofisticados, se pueden utilizar datos de múltiples fuentes para entrenar al mismo algoritmo, lo que aporta beneficios tanto en términos de cantidad como de diversidad.
El aprendizaje federado requiere la intervención de un tercero de confianza que ponga en contacto a los propietarios del algoritmo y de los datos. Esa es la función que cumple la empresa emergente Apheris, puesta en marcha en 2019 y con sede en Berlín. Apheris cuenta con un equipo de unos 20 desarrolladores, expertos en privacidad y científicos de datos que proporcionan una plataforma segura para el intercambio de datos. Su jefa de asuntos jurídicos, Lucie Arntz, habló recientemente con la Revista de la OMPI sobre el modelo de negocio de la empresa, la protección de datos y la seguridad.
Ventajas del aprendizaje federado
Arntz se incorporó a Apheris en el verano de 2020 – fue la primera empleada que no tenía un perfil científico – y es la responsable de garantizar que la empresa cuente con una base jurídica adecuada, así como de proteger los derechos de los clientes y supervisar los contratos. Asegura que el aprendizaje federado se basa en la convicción de que “es mejor mantener los datos sensibles en el ámbito local y bajo el control del responsable de su tratamiento”, y que este modelo ofrece resultados “tan buenos como si tuvieras todos los datos en tus propios servidores”.
Hasta el momento, los beneficios han sido más evidentes en el sector de la salud, en el que las técnicas de IA se encuentran muy avanzadas y existe una preocupación fundamental por los datos confidenciales y sensibles de los pacientes. No obstante, la Sra. Arntz señala que el aprendizaje federado ofrece ventajas incluso cuando los datos no son sensibles por contener información de identificación personal. Por ejemplo, Apheris está trabajando en un proyecto para un fabricante de productos químicos que implica datos de productos y clientes que son sensibles y secretos desde el punto de vista comercial. El aprendizaje federado también podría ser de utilidad cuando determinados datos estén protegidos por derechos de propiedad intelectual.
“Centralizar los datos empieza a ser obsoleto”, dice Arntz, y añade que muchas empresas poseen grandes cantidades de datos valiosos que no se aprovechan por las preocupaciones que crea el hecho de compartirlos: “Puedes tener muchos datos que podrían ser súper importantes para otra persona, pero no para ti, de modo que si no te asocias con alguien no tienen ningún valor”.
En algunos casos, el valor de los datos solo se hace patente cuando se combinan con datos de otras fuentes a través del aprendizaje federado. Por ejemplo, los datos médicos de pacientes de los Estados Unidos podrían complementarse con los de pacientes de África o Asia, dando lugar a un conjunto de datos de ensayos clínicos más diverso. “Lo podemos ampliar tanto como queramos, esa es la magia del asunto”, dice la Sra. Arntz.
No obstante, la Sra. Arntz también señala que probablemente falten tres años aún para desplegar todo el potencial del aprendizaje federado. Una de las razones es la necesidad de una mayor normalización del formato y de las actividades de recopilación de los datos. Aunque el aumento de la capacidad informática permite procesar mayores cantidades de datos, para obtener resultados óptimos es necesario que esos datos estén bien estructurados para permitir colaboraciones seguras. También en este caso, el sector de la salud va a la cabeza, pero otros sectores se están poniendo al día. Uno de los que menciona la Sra. Arntz es la industria automotriz, en la que el desarrollo de vehículos parcial o totalmente autónomos depende del análisis de una gran variedad de datos procedentes de diversas fuentes, como los conductores, los vehículos, las autoridades viales, las fuerzas del orden y las aseguradoras. “La industria automotriz está destinando muchos esfuerzos a lograr esa normalización”, afirma. “Hay un gran interés por poder colaborar a partir de esos datos y se está intentando que los grandes fabricantes se pongan de acuerdo para normalizarlos. Es un campo especialmente interesante porque implica la interacción de los sectores público y privado.” En el sector de la automoción, es probable que la solución sea voluntaria y dirigida por el propio sector, pero aún tardará en desarrollarse.
Aunque el aumento de la capacidad informática permite procesar mayores cantidades de datos, para obtener resultados óptimos esos datos deben estar bien estructurados para permitir colaboraciones seguras.
El problema de la anonimización
Uno de los grandes obstáculos para el desarrollo de herramientas de IA es el grado de anonimización de los datos. Es comprensible que las personas se preocupen por proteger sus datos personales (ya sea el historial médico o familiar, la información financiera u otros detalles personales) pero, como dice la Sra. Arntz, “cuanto más anonimizados estén los datos, menos relevantes serán. El futuro del aprendizaje automático no pasa por la anonimización”. El desarrollo y ensayo eficaz de medicamentos, por ejemplo, requiere tener en cuenta la edad, el origen étnico, las alergias, la medicación y otros factores; los vehículos de conducción autónoma necesitan información sobre el lugar al que te diriges, el tipo de vehículo que conduces y la velocidad a la que quieres ir. La Sra. Arntz cree que el aprendizaje federado puede ayudar a proporcionar un equilibrio y demostrar que “la privacidad y la innovación no son incompatibles”.
Para superar estos obstáculos se necesita una mezcla de soluciones tecnológicas y jurídicas: la tecnología puede garantizar la seguridad de los datos mediante procesos rigurosos y sometidos a intensas pruebas, mientras que la ley permite establecer contratos que estipulen quién controla los datos, quién puede recibir los resultados y con qué grado de detalle.
Comparación entre el aprendizaje centralizado y el federado
La protección de los datos es una cuestión que sigue planteando dificultades: a pesar de la protección que pueden brindar la legislación de derecho de autor y herramientas sui generis como los derechos relacionados con las bases de datos en la UE, los límites no están claros y es probable que la mayoría de las organizaciones recurran a disposiciones contractuales y a la legislación relativa al secreto comercial o la información confidencial para proteger sus datos. En opinión de la Sra. Arntz, sin embargo, la cuestión de la protección de los datos y el modo de hacerlo no tiene por qué ser un problema: “Cuando una persona dispone de datos, probablemente piense que son importantes y que deben protegerse. A los efectos del aprendizaje federado, no importa si los datos se encuentran protegidos formalmente o no. Si pecamos de algo es de precavidos”.
Más urgente, a su juicio, es la cuestión del “consentimiento amplio”. El Reglamento General de Protección de Datos (RGPD) reconoce que los investigadores científicos no siempre pueden identificar todos los fines para los que se recopilan los datos. En consecuencia, tal vez no deban ser tan específicos respecto a sus planes en otros ámbitos, aunque sí deben ofrecer opciones para que los interesados puedan dar un consentimiento fundamentado sobre los futuros usos en la investigación. “Necesitamos orientaciones más claras sobre lo que son los ‘fines de investigación’”. Por el momento, las universidades y los investigadores no están seguros y eso limita la innovación”, afirma.
Iluminar el camino hacia una reglamentación justa
La Sra. Arntz considera que el RGPD es un ejemplo de regulación “muy criticada, pero también muy apreciada”: proporciona una base sólida para la protección de datos, aunque deberá actualizarse a medida que cambie la tecnología. “Sobre todo, necesitamos claridad: incluso cuando la directriz que se da es que no se puede hacer algo, al menos es bueno tener claro dónde se traza la línea”.
También sostiene que el RGPD es un ejemplo de cómo una región – en este caso, la UE – puede “iluminar el camino” hacia una reglamentación justa: según la Sra. Arntz, los datos no pueden regularse meramente a escala nacional, sino que se necesitan soluciones multinacionales o internacionales, aunque para ello se deba llegar a compromisos. En este sentido, se muestra optimista en cuanto a la claridad que aportarán las nuevas iniciativas de la UE, como la Ley de Gobernanza de Datos que se ha aprobado recientemente o la propuesta de Ley de Inteligencia Artificial: “La política debe estar siempre abierta a la optimización. En el futuro nos tocará adaptarla y replantearnos lo que intentamos conseguir.”
Sin embargo, la Sra. Arntz advierte que el proceso debe ser inclusivo e interdisciplinario: ocurre con demasiada frecuencia que los expertos del ámbito empresarial, jurídico, político y técnico no están en la misma sala o ni siquiera hablan el mismo idioma, y no siempre se escucha la voz de las empresas emergentes y las pymes. Según explica, “los Gobiernos hablan mucho con las grandes empresas, pero si no hablan con las empresas emergentes no conocen las tecnologías innovadoras”.
Se trata de una conversación importante, asegura, porque la tecnología es cada vez más sofisticada y hay abundante financiación disponible para nuevos productos y servicios derivados de la IA y del análisis de datos. La importancia de los datos se hace evidente en todos los ámbitos, desde la lucha contra la pandemia de COVID-19 hasta la evaluación del impacto del cambio climático. “Vamos a ver un gran crecimiento en el análisis de datos, y la política tendrá que evolucionar en paralelo”, dice la Sra. Arntz.
Los datos en la UE – Reglamentación existente y propuesta
Reglamento General de Protección de Datos (RGPD): El RGPD de 2016 sustituyó a la Directiva sobre protección de datos de la UE en la reglamentación del tratamiento de los datos personales de los interesados en el Espacio Económico Europeo. Su ejemplo se ha seguido en muchos otros países y regiones, como en el caso de la Ley de protección de la privacidad de los consumidores de California (2018).
Ley de Gobernanza de Datos: El Parlamento Europeo aprobó esta Ley el 6 de abril de 2022 y la anunció como una medida que “estimulará la innovación y ayudará a las empresas emergentes y a los negocios a usar los macrodatos”. Sus disposiciones beneficiarán a las empresas, que podrán acceder a los datos a un costo más bajo y verán reducidas las barreras de entrada al mercado. Los consumidores se beneficiarán, por ejemplo, de un consumo energético más inteligente y de una reducción de las emisiones. Las normas también están diseñadas para generar confianza, al facilitar y hacer más seguro el intercambio de datos mediante la garantía de su conformidad con la legislación sobre protección de datos. También facilitarán la reutilización de ciertas categorías de datos del sector público, aumentarán la confianza en los intermediarios de datos y promoverán el altruismo en este ámbito (la cesión de datos en beneficio de la sociedad). La ley creará los “procesos y estructuras” necesarios para facilitar el intercambio de datos entre empresas, particulares y el sector público. Antes de convertirse en ley, tendrá que ser aprobada por todos los países de la UE en el Consejo.
Ley de Datos de la UE: La Ley, también conocida como propuesta de Reglamento europeo por el que se establecen normas armonizadas en materia de acceso y uso justo de los datos, fue adoptada por la Comisión Europea en febrero de 2022 y es un pilar fundamental de la estrategia europea en materia de datos. En la Ley se especifica quién puede crear valor a partir de los datos y en qué condiciones puede hacerlo.
Ley de Inteligencia Artificial: La propuesta de Reglamento para establecer normas armonizadas en materia de inteligencia artificial (IA) en el ámbito de la UE forma parte del paquete de medidas sobre esta materia que la Comisión Europea publicó en abril de 2021. Se trata del primer intento de “promulgar una reglamentación horizontal de la IA” y está diseñada para convertir Europa en el polo mundial de desarrollo de una IA fiable y centrada en el ser humano.
El propósito de OMPI Revista es fomentar los conocimientos del público respecto de la propiedad intelectual y la labor que realiza la OMPI, y no constituye un documento oficial de la Organización. Las denominaciones empleadas en esta publicación y la forma en que aparecen presentados los datos que contiene no entrañan, de parte de la OMPI, juicio alguno sobre la condición jurídica de ninguno de los países, territorios o zonas citados o de sus autoridades, ni respecto de la delimitación de sus fronteras o límites. La presente publicación no refleja el punto de vista de los Estados miembros ni el de la Secretaría de la OMPI. Cualquier mención de empresas o productos concretos no implica en ningún caso que la OMPI los apruebe o recomiende con respecto a otros de naturaleza similar que no se mencionen.