Apheris:解决数据隐私权的两难困境
詹姆斯·纳顿,自由撰稿人
如何启用复杂的人工智能工具,同时尊重隐私并保护数据资产的知识产权?柏林的一家初创企业认为联合学习是问题的答案。
在2021年9月举行的第四届知识产权和前沿技术产权组织对话会(参阅数据:转变全球经济的燃料)上,产权组织总干事邓鸿森在开幕辞中称数据是推动数字化的“燃料”。机器学习的算法需要大量数据用于学习——但如果燃料的流通被阻断,换言之,如果出于隐私、安全或知识产权保护的原因无法共享数据,会发生什么情况?
这一问题的解决方案之一称为联合学习,即数据永不脱离数据所有者的掌控。相反,机器学习算法在本地进行数据训练,数据永不共享。举一个简单的例子,医院患者病历等敏感数据可以被制药公司用于研制新药,而医院无需披露任何数据。在更为复杂的情况下,多种来源的数据可用于训练同一个算法,在数量和多样性方面都有好处。
联合学习需要通过可靠的第三方联结算法和数据所有者。成立于2019年的柏林创业公司Apheris就是这样一家企业。Apheris有一个由大约20名开发人员、隐私专家和数据科学家组成的团队,为安全的数据共享提供安全平台。该公司法律主管卢齐厄·阿恩茨最近向WIPO杂志介绍了Apheris的商业模式、数据保护和安全性。
联合学习的好处
阿恩茨女士于2020年夏加入Apheris——她是第一名非科学家员工,负责确保企业的合理法律基础,保护客户权利并监督合同。她说,联合学习基于以下信念:“敏感数据最好本地保存,由数据控制者掌控,”所得结果“完全相当于所有数据放在使用者自己的服务器的场景”。
迄今为止,好处在医疗保健领域最为明显,因为这一领域使用先进人工智能技术,而且对患者数据的保密和敏感性存在根深蒂固的担忧。但阿恩茨女士指出,即使不存在个人身份信息(PII)数据敏感问题,联合学习也有好处。例如,Apheris现在正在为一家化学品制造商做一个项目,该项目所涉产品和客户数据具有商业敏感性、需要保密。在特定数据受到知识产权保护的情况下,也可采用联合学习模式。
阿恩茨女士说:“集中化数据逐渐过时,”她补充说,许多公司拥有大量宝贵数据,但由于对共享有顾虑而没有利用这些数据:“你拥有的很多数据或许对自己并不重要,对别人却超级重要,所以如果没有合作伙伴,这些数据就完全没有价值。”
某些情况下,数据的价值可能只有通过联合学习与其他来源的数据相结合时才会显现。例如,美国患者的医疗数据可以用非洲或亚洲患者的数据予以补充,从而形成更加多样化的临床试验数据集。“你可以随心所欲地扩大规模,神奇之处就在于此,”阿恩茨女士说。
但她还补充道,联合学习的潜力可能还需要三年时间才能实现。原因之一是数据收集和格式化方面需要更加标准化。虽然计算能力提高后得以处理更多的数据,但为了获得最佳效果,需要有结构合理的数据以便实现安全的数据协作。这方面医疗卫生部门同样处于领先地位,但其他部门也在迎头赶上。阿恩茨女士指出汽车行业就是其中之一,在这一领域,半自动和全自动驾驶车辆的发展取决于对不同来源大量数据的分析——包括司机、车辆、公路管理部门、执法机构和保险公司的数据。“汽车行业非常注重落实标准化工作,”她说。“人们极其关注在此类数据上开展合作的能力,正在努力联合各大型制造商共同实现标准化。这一领域特别有趣,因为涉及公共和私营部门的互动。”汽车产业的解决办法可能由行业主导自发实现,但这个过程需要时间。
虽然计算能力提高后得以处理更多的数据,但为了获得最佳效果,需要有结构合理的数据以便实现安全的数据协作。
匿名化难题
开发人工智能工具的重大挑战之一是匿名化程度。民众关心个人数据(病史或家族史,财务信息或其他个人资料等等)的保护可以理解,但正如阿恩茨女士所说,“数据越是匿名化,所具有的意义就越小。匿名化不是机器学习的未来。”举例而言,有效的药物研制和试验需要考虑年龄、种族、过敏、用药等因素;自动驾驶汽车需要目的地、驾驶车辆类型以及理想速度的信息。阿恩茨女士认为,联合学习有助于实现平衡,证明“保护隐私的同时也可创新,两者并不矛盾。”
克服这样的挑战需要结合技术和法律解决方案:所用流程经过严格而密集的测试,技术即可确保数据的安全,而法律则可以通过合同规定数据由谁控制,谁可以获取结果以及获取数据的精细度。
比较中心化学习和联合学习
数据的实际保护方法仍然是个难题:虽然版权法和欧盟的数据库权利等专门工具可提供一些保护,但界限并不明确,大多数组织机构可能倾向于维护数据安全,依靠合同条款和商业秘密或保密信息法的保护。而阿恩茨女士说,无须担心数据是否受到保护及其保护方法:“拥有数据的人多半就会重视并保护数据。对于联合学习,数据是否得到正规保护并不重要。我们选择的是稳妥的做法。”
她认为,更紧迫的问题在于“广泛知情同意”。《通用数据保护条例》承认,科研人员并非总能说明收集数据的所有目的。因此,他们不必像其他领域制定计划那样具体,但还是应该提供选择,以便数据主体能够对未来的研究用途给予知情同意。“我们需要对‘研究目的’定义有更明确的指导。目前,大学和研究人员对此没有把握,这限制了创新,”她说。
公开透明,公平监管
阿恩茨女士认为,《通用数据保护条例》是一个“毁誉参半”的法律实例:它为数据保护提供健全的基础,但需要随着技术的变化而更新。“最重要的是,我们需要明确性:即使指导意见意在禁止一些行为,至少有界限明确的好处。”
她还认为,《通用数据保护条例》说明一个地区——本例即欧盟——可以做到“公开透明”,促进公平监管:如她所言,数据不能仅仅在国内监管,因此需要多国或国际解决方案——即使过程中必须达成妥协。她乐观地认为,欧盟的新举措,如最近通过的《数据治理法》和审议中的《人工智能法》,将增强明确性:“政策应当永远保留优化的空间。我们会需要在未来调整政策,重新审视我们所要实现的目标。”
但她的告诫是,这一过程必须具有包容性并跨越多个学科:商业、法律、政策和技术专家往往不会同处一室,甚至彼此之间难以沟通,初创企业和中小企业的意见常常无人倾听。阿恩茨女士解释说:“政府与大公司交流很多,但如果不与初创企业交流,他们就无法了解创新技术。”
她说,这种交流很重要,因为技术越来越复杂,而且有大量资金可用于人工智能和数据分析衍生的新产品和新服务。从应对COVID-19大流行到评估气候变化影响等各个方面,数据的重要性均显而易见。阿恩茨女士说:“我们会看到数据分析大量增长,而政策不得不随之而动。”
欧盟的数据——现有法律及法律草案
《通用数据保护条例》(GDPR):2016年的《通用数据保护条例》取代了欧盟数据保护指令,管理欧洲经济区数据主体的个人数据处理。其他许多国家和地区也纷纷效仿,如《加州消费者隐私法》(2018)。
《数据治理法》:欧洲议会于2022年4月6日通过这一法案。该法案被欧洲议会誉为“能促进创新并帮助初创公司和各类企业使用大数据”的举措。法案的有关规定会减少数据成本和市场准入障碍,造福企业界。消费者也会受益,例如,能源消耗更加智能,排放更低。设计这一法案的用意还有树立信心,通过确保数据符合数据保护法要求,让数据共享更加方便安全。法案还会促进某些类别的公共部门数据的重复利用,加强对数据中介的信任,并提倡数据利他主义(为社会公益分享数据)。该法案创建的“程序和结构”便于公司、个人和公共部门分享数据。形成法律之前必须在理事会中获得所有欧盟国家批准。
欧盟《数据法案》:欧盟委员会于2022年2月通过的这项法案又名《关于公平获取和使用数据的统一规则提案》,是欧洲数据战略的关键支柱之一。法案明确了可以利用数据创造价值的主体,以及利用数据创造价值须遵守的条件。
《人工智能法》:为欧盟制定人工智能统一规则立法的提案属于欧盟委员会2021年4月发布的一系列人工智能相关文件。这是首次尝试“制定人工智能的横向法规,” ,其用意是让欧洲成为以人为本、值得信赖的人工智能全球中心。