Взаимосвязь между защитой персональных данных, обучением машин и искусственным интеллектом

Интервью с Беном Лорикой, ведущим специалистом по работе с данными компании O’Reilly Media

В докладе говорится о современных направлениях научных исследований в области искусственного интеллекта. Что, по вашему мнению, является здесь сегодня главным фактором инноваций?

Новый взлет интереса к ИИ обусловлен прорывами в аппаратных средствах и методах обучения машин, в частности, успехами в разработке методов глубокого обучения и обучения с подкреплением. Применение обоих этих методов требует чрезвычайно больших объемов данных, причем невозможно переоценить значение создания или сбора (размеченных) данных для настройки этих алгоритмов.

Мы живем в этоху, когда центральной проблемой как для пользователей, так и для регулирующих органов стала проблема защиты персональных данных. Пользователи требуют обеспечения большей прозрачности и контроля в области сбора, хранения и использования данных, а также обмена данными.

Бен Лорика

Мы живем в этоху, когда центральной проблемой как для пользователей, так и для регулирующих органов стала проблема защиты персональных данных. Пользователи требуют обеспечения большей прозрачности и контроля в области сбора, хранения и использования данных, а также обмена данными. Регулирующие инстанции многих стран и регионов приняли исторические законы о защите персональных данных: так, законы Европы (GDPR) и Калифорнии (Закон о защите конфиденциальности данных потребителей) обязывают компании, желающие разрабатывать и внедрять системы, предполагающие использование персональных данных, ставить во главу угла такие понятия, как «транспарентность», «контроль со стороны пользователей» и «проектируемая конфиденциальность» (privacy by design).

Как организации встраивают в свои сервисы аналитику в условиях, когда ключевым требованием стала защита персональных данных?

Обычно организация использует данные для двух основных видов операций: совершенствования процессов принятия решений (на основе бизнес-аналитики) и автоматизации (на основе «обучения машин» и ИИ). Но сегодня на рынке появляются методы и инструменты для обеспечения защиты персональных данных при создании систем, в основе которых лежат инструменты бизнес-аналитики и методы обучения машин.

Во многих случаях инструменты бизнес-аналитики работают с базами данных. В результате совместного проекта Uber и RISE Lab, принадлежащей UC Berkeley был разработан инструмент с открытым кодом, позволяющий аналитикам направлять запросы и получать результаты, соответствующие самым современным требованиям дифференциальной приватности (формальной гарантии соблюдения высоких стандартов защиты персональных данных). Созданный компаниями инструмент с открытым кодом создает возможность разработки многими организациями инструментов бизнес-аналитики со встроенной защитой персональных данных. Еще интереснее то, что системы дифференциальной приватности можно масштабировать на миллионы устройств, генерирующих данные в режиме реального времени. Apple, Microsoft и Google уже создали инструменты бизнес-аналитики с защитой персональных данных для сервисов, работающих с мобильными телефонами и интеллектуальными счётчиками.

Ученые и предприниматели активно разрабатывают методы и инструменты защиты персональных данных для применения в системах ИИ. Сообщество разработчиков методов обучения машин уже давно признало, что простые методы анонимизации данных могут быть связаны с риском раскрытия персональных данных (последним примером этого стали атаки деанонимизации, зафиксированные на сайте Netflix Prize). Ниже перечислены некоторые новые методы защиты персональных данных, применяемые при обучении машин:

Поскольку и пользователи, и регуляторы подчеркивают важность защиты персональных данных, специалисты в области обработки данных объединяют свои усилия для разработки инструментов защиты персональных данных для систем ИИ, которые появятся в недалеком будущем.

Какие еще материалы можно почитать по данной теме?