Apheris社: データ・プライバシーのジレンマを解消
James Nurton氏、フリーランス・ライター
データ資産のプライバシーを尊重し知的財産を保護しつつ、高度な人工知能 (AI) ツールを実現するにはどうすれば良いでしょうか。ベルリンを本拠とするスタートアップ企業は、連合学習 (federated learning) がその答えになると考えています。
WIPOのDaren Tang事務局長は、2021年9月に開催された「知的財産と先端技術に関するWIPO対話」(WIPO Conversation on IP and Frontier Technologies) の第4回セッション (「データ: 世界経済を変革する原動力」をお読みください) の開会の挨拶で、データはデジタル化を促進する「燃料」であると述べました。機械学習のアルゴリズムは大量のデータを学習する必要がありますが、燃料が切れた場合、つまりプライバシーやセキュリティ、知的財産 (IP) 保護などの理由でデータを共有できない場合はどうなるでしょうか。
この問題に対する1つの解決策が連合学習 (federated learning) です。連合学習では、常にデータ所有者がデータを管理します。機械学習のアルゴリズムは、ローカルなデータ上で訓練され、共有されません。簡単な例を挙げると、病院の患者記録などの機密データを開示することなく、製薬会社の新薬開発に利用することができます。もう少し複雑なケースでは、複数ソースのデータが同じアルゴリズムを訓練するために使用され、データの量と種類が増えるというメリットが得られます。
連合学習には、アルゴリズムとデータ所有者を結びつける信頼できる第三者機関が必要です。2019年に設立されたベルリンを本拠とするスタートアップ企業Apheris社はそうした企業の1つです。Apheris社には約20名の開発者、プライバシーの専門家、データ・サイエンティストが在籍し、データを安全に共有するための安全なプラットフォームを提供しています。WIPOマガジンは最近、Apheris社のビジネスモデル、データ保護、セキュリティについて同社の法務部門の責任者Lucie Arntz氏に話を聞きました。
連合学習のメリット
Arntz氏は2020年の夏に、科学者以外で初めてApheris社に入社し、適切な法的基盤の整備、顧客の権利保護、契約の管理を担当しています。連合学習は「機密データはデータ管理者の管理下でローカルに保持するのが最適である」という考え方に基づいており、「データがすべて自身のサーバーにある場合に同じように優れた」結果をもたらす、と同氏は言います。
これまでのところ、連合学習のメリットが最も発揮されているのが医療分野です。この分野ではAI技術が発展し、慎重な扱いを要する機密性の高い患者データについて、重要な懸念があります。しかし、個人情報 (PII) に関するデータの機密性が高くない場合でも、連合学習にはメリットがあるとArntz氏は指摘します。例えば、Apheris社は現在、ある化学メーカーのプロジェクトに取り組んでおり、このプロジェクトには、商業的に機密性が高い非公開の製品および顧客データが含まれています。連合学習は、データが知的財産権で保護されている場合にも適用できます。
「データの集中管理は時代遅れになりつつあります」とArntz氏は述べ、多くの企業が貴重なデータを大量に所有しているにもかかわらず、共有に関する懸念からそうしたデータを活用できていないと言います。「他者にとってきわめて重要でも自分にとってはそれほど重要でないデータを大量に持っている可能性があるため、他者と提携しなければ、そのデータには何の価値もありません。」
連合学習を通じて他のソースのデータと結びついた時に、データの価値が初めて明らかになることもあります。例えば、米国の患者の医療データは、アフリカやアジアの患者の医療データによって補完され、より多様性のある臨床試験データセットになる可能性があります。「データの規模を好きなだけ拡大することができ、素晴らしい結果がもたらされます」とArntz氏は言います。
しかし、連合学習の可能性が十分に発揮されるには、あと3年はかかるとも述べています。その理由の1つは、データの収集とフォーマットをさらに標準化する必要があるためです。コンピューター処理能力の向上により、処理できるデータの量は増えていますが、最適な結果を得るには、データを適切に構造化し、安全なデータ・コラボレーションを実現する必要があります。この点でも医療分野が一歩リードしていますが、他の分野も追い付きつつあります。そうした分野としてArntz氏が認識しているのは自動車産業です。自動車産業では、一部および完全自律走行車の開発は、さまざまなソース (ドライバー、車両、高速道路当局、法執行機関、保険会社など) からの多種多様なデータの分析に依存しています。「自動車産業はこうした標準化を非常に重視しています」と同氏は言います。「データ・コラボレーションに対する関心が高く、大手メーカーが標準化に向けて提携する動きがあります。標準化は官民両セクターが関与するため、特に興味深い分野です。」自動車業界では、業界主導の自発的なソリューションが予想されますが、実現には時間がかかるでしょう。
コンピューター処理能力の向上により、処理できるデータの量は増えていますが、最適な結果を得るには、データを適切に構造化し、安全なデータ・コラボレーションを実現する必要があります。
匿名化という難題
AIツールを開発する上での大きな課題の1つが匿名化の水準です。個人が個人データ (病歴、家族歴、財務情報、その他の個人情報など) を保護したいと考えるのは当然ですが、Arntz氏はこう指摘します。「データの匿名化が進むほど、データの重要性は低下します。匿名化に機械学習の未来はありません。」例えば、有効な医薬品の開発や試験では、年齢、人種、アレルギー、投薬、その他の要因を考慮する必要があります。自動運転車には、目的地、運転している車両の種類、希望する運転速度などの情報が必要です。Arntz氏は、連合学習はバランスを取るために役立ち、「プライバシーとイノベーションは両立できる」ことを示すと考えています。
こうした課題を克服するには、テクノロジーと法律によるソリューションを組み合わせる必要があります。テクノロジーは十分に検証された厳格なプロセスを通じてデータのセキュリティを確保し、法律はデータの管理者、結果の受領者、および受け取るデータの詳細さの程度を明記した契約を可能にします。
集中学習と連合学習の比較
実際にデータがどのように保護されるかは難しい問題です。著作権法やEUにおけるデータベースに関する独自の権利などの特殊な (sui generis) 措置によってある程度保護される可能性がありますが、その範囲は明確ではなく、ほとんどの組織は、契約上の規定と営業秘密または機密情報法に基づく保護を利用して、データの安全性を確保したいと考えるでしょう。しかし、データ保護の有無や保護の方法を問題にする必要はないとArntz氏は言います。「データの所有者は、そのデータが重要で保護が必要だと考えるでしょうが、連合学習では、データが正式に保護されているか否かは問題ではありません。私たちは慎重を期しています。」
より差し迫った問題は「広範な同意」(broad consent) であると同氏は考えています。EU一般データ保護規則 (GDPR) は、科学研究者がデータ収集の目的をすべて特定できるとは限らないことを認めています。そのため、科学研究者は他の分野では自身の計画を明確にしなくても良いかもしれませんが、将来データを研究に使用する際に、データ主体が情報に基づいて同意できるよう、選択肢を与える必要があるでしょう。「『研究目的』に関するより明確な指針が必要です。現時点では、大学や研究者にとって不確実性があり、そのことがイノベーションの妨げとなっています」と同氏は言います。
公正な規則への注目
Arntz氏は、GDPRは「批判も多いが広く支持されている」法令の一例であり、データ保護の確固たる基盤になるものの、テクノロジーの変化に合わせて改定する必要があると考えています。「何よりも明確性が必要です。その指針が何かを禁止するものであったとしても、少なくとも限界が明確なのは良いことです。」
同氏はまた、GDPRはある地域 (この場合はEU) が公正な規則の促進に「光を当て」うることを示す例であると指摘します。データは一国だけでは規制できないため、途中で妥協を求められるとしても、多国間あるいは国際的な解決策が必要だと言います。同氏は、最近採択されたデータガバナンス法 (Data Governance Act) や提案されているAI法 (AI Act)など、EUの新しい取り組みが明確性を高めると期待しています。「政策は常に最適化を受け入れるべきです。今後、政策を適応させ、何を実現しようとしているのか再検討する必要があるでしょう。」
しかし、このプロセスは包括的で分野の垣根を越えたものでなければならないと同氏は警鐘を鳴らします。ビジネス、法律、政策、技術の専門家が一堂に会することはほとんどなく、同じ言語を話さないことも珍しくありません。また、スタートアップ企業や中小企業の声が届かないこともあります。「政府は大企業と頻繁に対話しますが、スタートアップ企業と話をしなければ、革新的な技術に関する情報を得られません」とArntz氏は説明します。
対話が重要だと同氏は言います。なぜなら、テクノロジーはますます高度化し、AIやデータ分析から生まれる新しい製品やサービスが利用できる資金は豊富にあるからです。新型コロナウイルス感染症のパンデミック克服から気候変動の影響評価まで、データの重要性は明らかです。「データ分析は著しく成長するでしょう。それに応じて政策も変化する必要があります」とArntz氏は述べています。
EUにおけるデータ – 現行法と法案
一般データ保護規則 (GDPR): EUデータ保護指令に代わり、2016年のGDPRが欧州経済圏におけるデータ主体の個人データの処理について規定しています。これに追随する動きが他の多くの国や地域で見られ、その一例が2018年カリフォルニア州消費者プライバシー法です。
データガバナンス法: 2022年4月6日に欧州議会によって採択されました。欧州議会はこれを「イノベーションを推進し、スタートアップ企業や企業のビッグデータ活用を支援する」動きとして歓迎しています。同法は企業のデータ・コストを削減し、市場参入障壁を下げるというメリットがあります。消費者は、例えば、エネルギー消費をよりスマートにしたり、排出ガスを削減してデータを利用できるなどのメリットがあります。同法は、データ保護法を遵守したデータ共有によって、より簡単で安全なデータ共有を可能にし、信頼を構築することも目的としています。また、公共セクターの一部カテゴリーのデータの再利用を促進し、データ仲介者の信頼性を高め、データ利他主義 (社会の利益のためにデータを共有すること) を推進します。同法は、企業、個人、公共部門のデータ共有を容易にする「プロセスとしくみ」を構築します。同法が立法化されるには、欧州理事会で全EU加盟国による採択が必要です。
EUデータ法: EUデータ法は「データへの公正なアクセスおよび利用に関する調和された規則に関する提案 (Proposed Regulation on Harmonised Rules on Fair Access to and Use of Data) 」としても知られ、2022年2月に欧州委員会によって採択された欧州データ戦略の重要な柱の1つです。同法はデータから価値を創出できるのは誰か、そのための条件は何かを明確にしています。
AI法: EUの統一ルールを策定するAI規制案は2021年4月に発表された欧州委員会のAI法案の一部です。同法案は「AIの横断的規制を法制化する」最初の試み であり、欧州を人間中心で信頼できるAIのグローバル・ハブにすることを目指しています。
WIPO Magazineは知的財産権およびWIPOの活動への一般の理解を広めることを意図しているもので、WIPOの公的文書ではありません。本書で用いられている表記および記述は、国・領土・地域もしくは当局の法的地位、または国・地域の境界に関してWIPOの見解を示すものではありません。本書は、WIPO加盟国またはWIPO事務局の見解を反映するものではありません。特定の企業またはメーカーの製品に関する記述は、記述されていない類似企業または製品に優先して、WIPOがそれらを推奨していることを意図するものではありません。