Apheris: solucionando o dilema da privacidade de dados
James Nurton, escritor independente
Como fazer uso de sofisticadas ferramentas de inteligência artificial (IA) sem violar a privacidade de dados ou a propriedade intelectual sobre ativos de dados? Uma startup de Berlim vê na aprendizagem federada a solução para esse problema.
Em seu discurso de abertura da quarta sessão do Diálogo da OMPI sobre propriedade intelectual e tecnologias de ponta, realizada em setembro de 2021 (Dados: o combustível que vem transformando a economia global), o diretor geral da Organização Mundial da Propriedade Intelectual (OMPI), Daren Tang, afirmou que os dados são o combustível que impulsiona a digitalização. O treinamento dos algoritmos de aprendizado de máquina depende de volumes imensos de dados – mas o que acontece quando esse combustível é cortado, isto é, quando os dados não podem ser compartilhados por razões de privacidade, segurança ou proteção de propriedade intelectual (PI)?
Uma solução para esse problema é o chamado “aprendizado federado”, em que os dados jamais saem do controle de seu proprietário. O treinamento dos algoritmos de aprendizado de máquina se dá localmente, sem que os dados sejam em momento algum compartilhados. Um exemplo simples é o uso de dados sensíveis, como os prontuários dos pacientes de um hospital, no desenvolvimento de um novo medicamento por um laboratório farmacêutico, sem que o hospital precise revelar essas informações. Em casos mais sofisticados, dados provenientes de várias fontes podem ser usados para treinar um mesmo algoritmo, com benefícios em termos do volume e da diversidade dos dados.
O aprendizado federado requer a participação de terceiros confiáveis, para fazer a ligação entre o algoritmo e os proprietários dos dados. Criada em 2019 em Berlim, a startup Apheris desempenha justamente esse papel. Com uma equipe de vinte desenvolvedores, especialistas em questões de privacidade e cientistas de dados, a empresa oferece uma plataforma confiável para o compartilhamento seguro de dados. A diretora do departamento jurídico da Apheris, Lucie Arntz, falou recentemente à Revista da OMPI sobre proteção de dados, segurança e o modelo de negócios da empresa.
Os benefícios do aprendizado federado
Arntz ingressou na Apheris no segundo semestre de 2020 – foi a primeira contratação de alguém de fora da área científica – e é responsável por garantir um embasamento jurídico adequado, proteger os direitos dos clientes e supervisionar a elaboração de contratos. Segundo ela, o aprendizado federado baseia-se no princípio de que “o ideal é manter dados sensíveis localmente, sob o controle de seu proprietário”, sem que isso impeça que seus resultados sejam “tão bons quanto os modelos em que os dados são transferidos para servidores externos”.
Até o momento, os benefícios são mais perceptíveis no setor da saúde, onde as técnicas de inteligência artificial são avançadas e há grande preocupação com o uso de dados confidenciais e sensíveis dos pacientes. Arntz afirma, no entanto, que o aprendizado federado é útil quando o caráter sensível dos dados envolve não só informações pessoais identificáveis, mas também informações comercialmente sensíveis e sigilosas relativas a produtos e consumidores, como acontece em um projeto de um fabricante de produtos químicos de que a Apheris participa atualmente. Além disso, o aprendizado federado também pode ser adotado quando entram em jogo dados protegidos por direitos de propriedade intelectual.
“A centralização está se tornando cada vez menos viável”, diz Arntz. Segundo ela, porém, a preocupação com o compartilhamento de informações sensíveis faz com que muitas empresas deixem de aproveitar a enorme quantidade de dados valiosos que têm sob seu controle. “Imagine uma empresa que possui grande volume de dados que, embora não tenham valor para o seu negócio, são valiosíssimos para outras empresas. Sem parceiros confiáveis que viabilizem seu uso seguro, esses dados permanecerão sem valor”, explica a jurista.
Em alguns casos, o valor dos dados só vem à tona quando eles são combinados, por meio do aprendizado federado, com dados provenientes de outras fontes. As informações clínicas de pacientes que vivem nos Estados Unidos podem ser suplementadas, por exemplo, com informações de pacientes residentes na África ou na Ásia, resultando em um conjunto mais diversificado de dados para ser usado em ensaios clínicos. “Podemos ir acrescentando mais e mais fontes de dados, ilimitadamente. É aí que está a magia da coisa”, diz Arntz.
Segundo a diretora jurídica da Apheris, no entanto, o aprendizado federado ainda deve levar cerca de três para realizar plenamente seu potencial. Um dos motivos é a necessidade de maior padronização na coleta e formatação dos dados. Embora o aumento na capacidade computacional possibilite o processamento de volumes cada vez maiores de dados, a otimização dos resultados depende de dados bem estruturados, cujo uso colaborativo possa ser feito com segurança. Novamente, é na área da saúde que se observam os maiores avanços nesse aspecto, mas outros setores também vêm aprimorando a padronização dos dados. É o caso, diz Arntz, da indústria automobilística, em que o desenvolvimento de veículos parcial ou totalmente autônomos depende da análise de uma grande diversidade de dados, provenientes de várias fontes – como motoristas, veículos, departamentos de trânsito, autoridades rodoviárias e seguradoras. “A indústria automobilística está muito empenhada em viabilizar a padronização dos dados”, diz ela. “A capacidade de fazer uso colaborativo dos dados desperta grande interesse e há iniciativas importantes para envolver as grandes montadoras no esforço de padronização. Trata-se de uma área particularmente interessante por implicar a interação entre os setores público e privado.” No segmento automobilístico, a solução tende a ser voluntária e impulsionada pelas próprias empresas, mas seu desenvolvimento ainda levará algum tempo.
Embora o aumento na capacidade computacional possibilite o processamento de volumes cada vez maiores de dados, a otimização dos resultados depende de dados bem estruturados, cujo uso colaborativo possa ser feito com segurança.
O paradoxo da anonimização
Um dos grandes desafios para o desenvolvimento de ferramentas de IA é o nível de anonimização. É compreensível que os indivíduos se preocupem em proteger seus dados pessoais (quer tenham eles natureza clínica, familiar, financeira ou envolvam outros tipos de detalhe pessoal). A questão, explica Arntz, é que, “quanto mais anonimizados os dados, menor a sua relevância, de modo que o futuro do aprendizado de máquina não está na anonimização”. O desenvolvimento efetivo de um medicamento, por exemplo, precisa levar em conta dados como idade, origem étnica, alergias, medicações usadas e outros fatores individuais; os sistemas que controlam os carros autônomos, por sua vez, precisam de informações sobre o destino do passageiro, o tipo de veículo que está sendo usado e a velocidade de tráfego desejada. Arntz acredita que o aprendizado federado pode ajudar a garantir um equilíbrio entre a necessidade de privacidade e o desejo de inovação, mostrando que “uma coisa não anula a outra”.
A superação desses desafios exige uma combinação de soluções tecnológicas e jurídicas: a tecnologia pode garantir a segurança dos dados por meio de processos que sejam rigorosos e tenham sido intensamente testados, ao passo que os dispositivos legais permitem a elaboração de contratos que determinem com clareza quem controla os dados, quem pode receber os resultados e o nível de detalhe em que esses resultados devem ser gerados.
Comparando os aprendizados centralizado e federado
A forma como efetivamente se dá a proteção dos dados continua sendo uma questão complexa: embora o direito de autor e instrumentos sui generis, como os direitos sobre bancos de dados na União Europeia (UE), possam oferecer alguma proteção, os limites não estão claros, e a maioria das organizações tende a favorecer a preservação da segurança de seus dados, amparando-se em disposições contratuais e na proteção oferecida pela legislação relativa a segredos comerciais ou informações confidenciais. No entanto, segundo Arntz, saber se os dados estão ou não protegidos e como se dá sua proteção não precisa ser um problema: “Quem tem dados provavelmente os considera importantes e quer protegê-los. Para o aprendizado federado, porém, não importa se os dados estão formalmente protegidos ou não. Preferimos pecar pelo excesso de segurança”.
Uma questão mais premente, em sua opinião, é o “consentimento amplo”. O Regulamento Geral sobre a Proteção de Dados (GDPR) da UE reconhece que nem sempre os pesquisadores e cientistas têm como identificar todos os objetivos para os quais os dados são coletados. Dessa forma, eles não precisam ser tão específicos no que tange a seus planos em outras áreas, mas devem, ainda assim, oferecer opções para que os participantes possam dar um consentimento informado sobre futuros usos de seus dados para fins de pesquisa. “Precisamos de diretrizes mais claras sobre o que são ‘fins de pesquisa’. No momento, predomina a incerteza para universidades e pesquisadores, e isso é um fator limitante para as inovações”, diz Arntz.
Indicando o caminho para uma regulação justa
Para Arntz, o GDPR é um exemplo de legislação que é “muito criticada e, ao mesmo tempo, muito apreciada”: o regulamento oferece uma base sólida para a proteção de dados, mas precisará ser atualizado conforme a tecnologia for mudando. “Acima de tudo, precisamos de clareza: mesmo que fique estabelecido que determinada coisa é proibida, pelo menos a linha entre o que pode e o que não pode está bem definida, e isso é positivo.”
O GDPR também é um exemplo de como uma região – neste caso, a UE – pode “indicar o caminho” para uma regulação justa, diz Arntz. Uma vez que não há como regulamentar o uso de dados apenas em termos nacionais, são necessárias soluções multinacionais ou internacionais, ainda que isso exija algumas concessões, acrescenta ela. Na opinião da jurista, novas iniciativas da UE, como a recém-promulgada lei de governança de dados e a proposta de lei de inteligência artificial, devem proporcionar ainda mais clareza: “As diretrizes devem estar sempre abertas a aperfeiçoamentos. Precisaremos adaptá-las no futuro e rever nossos objetivos”.
No entanto, adverte Arntz, é fundamental que o processo seja inclusivo e interdisciplinar. Infelizmente, os especialistas em questões comerciais, jurídicas, políticas e tecnológicas não costumam conversar entre si – e, quando o fazem, não parecem falar a mesma língua. Além disso, as startups e pequenas e médias empresas (PMEs) nem sempre são consultadas. “Os governos mantêm canais de comunicação com as grandes empresas, mas, se não conversarem também com as startups, ficarão sem informações sobre tecnologias inovadores”, explica ela.
Esse diálogo é importante, pois a tecnologia está se sofisticando cada vez mais, e é grande a oferta de financiamento para novos produtos e serviços baseados em IA e análise de dados. A importância dos dados pode ser observada por toda parte, do enfrentamento da pandemia de Covid-19 à avaliação do impacto das mudanças climáticas. “Assistiremos a um crescimento constante na análise de dados, e as políticas públicas precisarão acompanhar esse movimento”, conclui ela.
A situação dos dados na UE – dispositivos existentes e propostos
Regulamento geral sobre a proteção de dados (GDPR): Promulgado em 2016, o GDPR substitui a diretiva da UE sobre proteção de dados e regulamenta o processamento de informações pessoais de titulares de dados no Espaço Econômico Europeu. Sua adoção foi seguida pela implementação de dispositivos semelhantes em muitos outros países e regiões, como, por exemplo, a lei de privacidade do consumidor aprovada em 2018 no estado norte-americano da Califórnia.
Lei de governança de dados: Adotada pelo Parlamento Europeu em 6 de abril de 2022, a lei pretende “incentivar a inovação e ajudar empresas e startups a explorar os recursos de big data”, reduzindo os custos dos dados e as barreiras de acesso ao mercado. Entre os benefícios para os consumidores estão o acesso a alternativas mais inteligentes de consumo de energia e menor volume de emissões de gases de efeito estufa. Suas disposições também têm por objetivo fomentar a confiança entre os atores do mercado, assegurando que o compartilhamento de dados seja simples e seguro e esteja em conformidade com a legislação de proteção de dados. Pretende-se ainda facilitar a reutilização de certas categorias de dados do setor público, fortalecer a confiança nos intermediários de dados e promover o altruísmo de dados (compartilhamento de dados em benefício da sociedade como um todo). A lei prevê a criação de “processos e estruturas” que facilitem o compartilhamento de dados por empresas, indivíduos e órgãos públicos, devendo ser adotada por todos os países do Conselho da UE antes de entrar em vigor.
Lei de dados da UE: Também conhecida como proposta de regulamento sobre a harmonização de regras relativas ao acesso justo e ao uso de dados, a lei foi adotada pela Comissão Europeia em fevereiro de 2022, constituindo elemento central na estratégia de dados da UE. Suas disposições determinam quem pode usar dados para criar valor e as condições em que isso pode ser feito.
Lei de inteligência artificial: A proposta de um regulamento sobre IA para harmonizar as normas em vigor na UE faz parte do pacote de IA publicado pela Comissão Europeia em abril de 2021. É a primeira tentativa de “promulgar um regulamento horizontal em matéria de inteligência artificial” com o objetivo de transformar a Europa em um centro global de IA confiável e centrada no ser humano.
A Revista da OMPI destina-se a contribuir para o aumento da compreensão do público da propriedade intelectual e do trabalho da OMPI; não é um documento oficial da OMPI. As designações utilizadas e a apresentação de material em toda esta publicação não implicam a expressão de qualquer opinião da parte da OMPI sobre o estatuto jurídico de qualquer país, território, ou área ou as suas autoridades, ou sobre a delimitação das suas fronteiras ou limites. Esta publicação não tem a intenção de refletir as opiniões dos Estados Membros ou da Secretaria da OMPI. A menção de companhias específicas ou de produtos de fabricantes não implica que sejam aprovados ou recomendados pela OMPI de preferência a outros de semelhante natureza que não são mencionados.