Исследование Google выявляет уязвимости в реализации дифференциальной приватности в нейросетях

Два специалиста из Google Research, программист Линн Чуа и научный сотрудник Притиш Камат, представили результаты своего исследования на конференциях ICML 2024 и NeurIPS 2024, в которых они анализируют несоответствия между теоретическими предпосылками и практической реализацией метода дифференциальной приватности (DP) в обучении нейронных сетей. Работа показывает, что часто используемый алгоритм стохастического градиентного спуска (SGD) может подвергать риску конфиденциальность данных из-за ошибок в разбиении данных на мини-пакеты.

Данная уязвимость была обнаружена при анализе процесса шифрования данных, который применяется для защиты приватной информации в обучении моделей машинного обучения. При использовании DP-SGD, который добавляет «шум» для защиты идентифицируемой информации, происходит ошибочная интерпретация данных из-за фиксированного размера мини-пакетов. Это может привести к получению неверной информации о других примерах данных, включая чувствительные данные пользователей.

Авторы исследования предложили использовать фреймовую структуру Map-Reduce для более надежной реализации Poisson-выборки, что, по их мнению, улучшит качество моделей и их защиту на уровне приватности, особенно в ситуациях с высоким уровнем конфиденциальности. В ходе экспериментов на наборе данных о кликах по рекламным объявлениям Criteo, они обнаружили, что использование Poisson-выборки дает лучшую производительность моделей по сравнению с традиционным подходом, основанным на шифровании данных.

Исследование подчеркивает важность тщательного анализа и реализации алгоритмов, предназначенных для сохранения конфиденциальности пользователей, что позволяет обеспечивать их защиту более эффективно.