Взаимосвязь между защитой персональных данных, обучением машин и искусственным интеллектом

Интервью с Беном Лорикой, ведущим специалистом по работе с данными компании O’Reilly Media

В докладе говорится о современных направлениях научных исследований в области искусственного интеллекта. Что, по вашему мнению, является здесь сегодня главным фактором инноваций?

Новый взлет интереса к ИИ обусловлен прорывами в аппаратных средствах и методах обучения машин, в частности, успехами в разработке методов глубокого обучения и обучения с подкреплением. Применение обоих этих методов требует чрезвычайно больших объемов данных, причем невозможно переоценить значение создания или сбора (размеченных) данных для настройки этих алгоритмов.

Мы живем в этоху, когда центральной проблемой как для пользователей, так и для регулирующих органов стала проблема защиты персональных данных. Пользователи требуют обеспечения большей прозрачности и контроля в области сбора, хранения и использования данных, а также обмена данными.
Бен Лорика

Мы живем в этоху, когда центральной проблемой как для пользователей, так и для регулирующих органов стала проблема защиты персональных данных. Пользователи требуют обеспечения большей прозрачности и контроля в области сбора, хранения и использования данных, а также обмена данными. Регулирующие инстанции многих стран и регионов приняли исторические законы о защите персональных данных: так, законы Европы (GDPR) и Калифорнии (Закон о защите конфиденциальности данных потребителей) обязывают компании, желающие разрабатывать и внедрять системы, предполагающие использование персональных данных, ставить во главу угла такие понятия, как «транспарентность», «контроль со стороны пользователей» и «проектируемая конфиденциальность» (privacy by design).

Как организации встраивают в свои сервисы аналитику в условиях, когда ключевым требованием стала защита персональных данных?

Обычно организация использует данные для двух основных видов операций: совершенствования процессов принятия решений (на основе бизнес-аналитики) и автоматизации (на основе «обучения машин» и ИИ). Но сегодня на рынке появляются методы и инструменты для обеспечения защиты персональных данных при создании систем, в основе которых лежат инструменты бизнес-аналитики и методы обучения машин.

Во многих случаях инструменты бизнес-аналитики работают с базами данных. В результате совместного проекта Uber и RISE Lab, принадлежащей UC Berkeley был разработан инструмент с открытым кодом, позволяющий аналитикам направлять запросы и получать результаты, соответствующие самым современным требованиям дифференциальной приватности (формальной гарантии соблюдения высоких стандартов защиты персональных данных). Созданный компаниями инструмент с открытым кодом создает возможность разработки многими организациями инструментов бизнес-аналитики со встроенной защитой персональных данных. Еще интереснее то, что системы дифференциальной приватности можно масштабировать на миллионы устройств, генерирующих данные в режиме реального времени. Apple, Microsoft и Google уже создали инструменты бизнес-аналитики с защитой персональных данных для сервисов, работающих с мобильными телефонами и интеллектуальными счётчиками.

Ученые и предприниматели активно разрабатывают методы и инструменты защиты персональных данных для применения в системах ИИ. Сообщество разработчиков методов обучения машин уже давно признало, что простые методы анонимизации данных могут быть связаны с риском раскрытия персональных данных (последним примером этого стали атаки деанонимизации, зафиксированные на сайте Netflix Prize). Ниже перечислены некоторые новые методы защиты персональных данных, применяемые при обучении машин:

едеративное обучение: данный метод, разработанный Google, позволяет осуществлять настройку централизованной модели обучения машин без обмена данными; благодаря этому его удобно использовать для сервисов, реализуемых на базе мобильных устройств.
Дифференциальная приватность: ученые продолжают активно исследовать взаимосвязь между методами дифференциальной приватности и обучения машин и уже разрабатывают модели глубокого обучения машин, в которых соблюдаются требования дифференциальной приватности.
Гомоморфное шифрование: это зарождающаяся новая область, задача которой – разработка класса инструментов, позволяющих осуществлять расчет сложных моделей на базе шифрованных данных. Первые результаты подобного рода получены при работе над системами компьютерного зрения и речевых технологий.
Децентрализация: это область, в которой в основном задают тон стартапы, занимающиеся изучением вариантов использования технологий блокчейна, распределенных реестров и систем вознаграждения на основе криптовалют. Например, компания Computable Labs разрабатывает децентрализованную инфраструктуру с открытым кодом, которая позволит компаниям осуществлять защищенный обмен данными и моделями. Компания стремится «обеспечить совместимость блокчейн-сетей с вычислительными процессами, применяемыми при обучении машин».

Поскольку и пользователи, и регуляторы подчеркивают важность защиты персональных данных, специалисты в области обработки данных объединяют свои усилия для разработки инструментов защиты персональных данных для систем ИИ, которые появятся в недалеком будущем.

Какие еще материалы можно почитать по данной теме?

Сбор данных и рынки данных в эпоху защиты персональных данных и обучения машин
Разработка инструментов для будущих приложений на базе ИИ: мы уже закладываем фундамент для будущих поколений приложений на базе ИИ, но пока эта работа только начинается
Значение методов обучения машин для разработки программного обеспечения