🧠 Блог посвящен теме VPN и безопасности, конфиденциальности данных в Интернете. Рассказываем про актуальные тренды и новости связанные с защитой.

Что такое дифференциальная конфиденциальность? Как он защищает ваши данные?

241

Дифференциальная конфиденциальность может показаться сложной, но наше руководство разбивает ее на простые части, чтобы облегчить понимание того, как эта концепция может защитить нашу конфиденциальность.

Когда системы спроектированы так, чтобы быть дифференциально конфиденциальными, они позволяют компаниям собирать данные, необходимые для обучения их алгоритмов, помогая при этом сохранять анонимность субъектов данных. По мере роста обеспокоенности по поводу конфиденциальности дифференцированная конфиденциальность может стать ключевым понятием того, как наши общества преодолевают нынешнюю эру инвазивного наблюдения.

Если вы беспокоитесь о сборе данных от крупных технологических компаний, хорошая новость заключается в том, что такие концепции, как дифференцированная конфиденциальность, становятся все более заметными. В определенных ситуациях дифференцированная конфиденциальность может помочь защитить нас, обеспечивая компромисс между интересами людей и интересами сборщиков данных.

Более широкая роль дифференциальной конфиденциальности

Дифференциальная конфиденциальность — это на самом деле гораздо более широкая идея, которая может применяться во множестве областей за пределами обучающих алгоритмов. Он был разработан как ответ на проблемы конфиденциальности при анализе данных. При нормальных обстоятельствах, если ваши данные включены в базу данных, это может привести к нарушению вашей конфиденциальности.

Даже если ваши данные были анонимизированы и были удалены ваши идентификаторы, они сохраняют возможность обратно связать вашу личность с помощью статистического анализа. Основная идея дифференциальной конфиденциальности заключается в том, что вы не можете нарушить конфиденциальность человека, если его данные не находятся в базе данных.

Имея это в виду, дифференцированная конфиденциальность направлена ​​на предоставление лицам, включенным в базу данных, такой же степени конфиденциальности, как если бы их данные были полностью исключены. Система является дифференциально частной, если данные структурированы таким образом, что нельзя сказать, участвовал ли конкретный субъект или нет.

Если что-то соответствует этому требованию, данные не могут быть связаны с отдельными лицами, что защищает их конфиденциальность. В этом смысле дифференциальная конфиденциальность — это скорее определение, чем техника.

Синтия Дворк, одна из исследователей, представивших этот термин, описала дифференцированную конфиденциальность как обещание держателя данных субъекту данных, что:

«Вы не пострадаете ни неблагоприятно, ни иным образом, если разрешите использование ваших данных в любом исследовании или анализе, независимо от того, какие другие исследования, наборы данных или источники информации доступны».

Одно из наиболее распространенных заблуждений заключается в том, что дифференциальная конфиденциальность — это особый прием. Это не так — их много. Когда компании говорят о дифференциальной конфиденциальности, они не используют дифференциальную конфиденциальность, они используют различные методы, чтобы убедиться, что данные являются дифференциально конфиденциальными.

Например, в алгоритмах предложения слов и эмодзи от Apple компания создала систему, которая добавляет шум к тому, какие типы пользователей вводят, чтобы сохранить конфиденциальность информации. Если предположить, что в системе нет недостатков, база данных является дифференциально частной.

Дифференциальная конфиденциальность достигается с помощью ряда сложных методов, требующих большого количества статистических данных. По сути, они добавляют в базу данных рассчитанное количество шума (случайные данные). Это скрывает взаимосвязь между человеком и точками данных, но, поскольку это делается контролируемым образом, данные по-прежнему достаточно точны, чтобы быть полезными во многих ситуациях.

Необходимое количество шума будет зависеть от количества людей в базе данных. Чтобы сохранить конфиденциальность личной информации, база данных не может слишком полагаться на одного человека. Чем меньше людей в базе данных, тем больше шума нужно добавить для их защиты.

Мы избавим вас от математических перегрузок, чтобы сделать эту статью более удобоваримой и легкой для понимания, но вы можете проверить статью Дворка, указанную выше, если вы хотите взглянуть на математические основы дифференциальной конфиденциальности.

Если вы уже немного перегружены, не волнуйтесь, мы начнем с того, что сделаем несколько шагов назад. Во-первых, мы рассмотрим конфиденциальность и данные в более общем смысле. Затем мы углубимся и рассмотрим дифференцированную конфиденциальность на более глубоком уровне, прежде чем сосредоточимся на том, как ее можно использовать в машинном обучении для менее инвазивного анализа данных.

Мы рассмотрим потенциал дифференциальной конфиденциальности в машинном обучении, его текущих приложениях, а также его ограничения. К тому времени, когда вы закончите, вы должны хорошо понимать его последствия в реальном мире, не погружаясь в математику.

Квадрат один: данные и конфиденциальность

Данные хороши — по крайней мере, в определенных ситуациях. Это помогает нам понять, что происходит на самом деле, и позволяет нам принимать более обоснованные решения на будущее. Без его сбора и анализа мы бы не достигли своего научного прогресса, и мир стал бы намного более хаотичным.

Допустим, ваша страна планирует потратить свой бюджет в следующем году. Как вы думаете, что приведет к лучшим и более справедливым результатам:

  • Если он спланировал свое распространение на основе предположений и интуиции; или же

  • Если бы он спланировал его распространение на основе детального сбора и анализа информации, включая количество людей, их местонахождение, их возраст, доходы, уровень образования и многие другие аспекты.

Если вы выбрали второй вариант, поздравляю, вы только что изобрели переписи, которые являются лишь одним примером того, как анализ данных может помочь сделать нашу жизнь лучше. Переписи включают сбор и анализ данных, которые затем используются правительством для решения ряда задач, включая распределение ресурсов. Как вы, наверное, догадались, они справляются с этой информацией гораздо лучше, чем без нее.

На практике это означает, что каждые несколько лет большинство из нас заполняет очень подробную анкету и отправляет ее правительству. Но это может нарушить конфиденциальность тех, кто на него ответить, что потенциально может привести к серьезным последствиям.

Для людей небезосновательно опасаться переписей, тем более что мир постепенно осознает массовый сбор данных и вторжения в частную жизнь, которые так распространены. Но переписи также дают нам невероятно ценную информацию, которая важна для будущих успехов наших стран.

Это оставляет нас перед загадкой. Участие в переписи может привести к нарушению конфиденциальности, но если все отвергнут перепись, мы потеряем всю эту ценную информацию. 

Компетентное бюро переписи развеет эти опасения, введя механизмы безопасности и конфиденциальности, которые помогают защитить индивидуальную информацию, в то же время предоставляя нам представление о группах в целом. Когда все сделано правильно, это хороший компромисс.

Единственный

Допустим, небольшой лесозаготовительный и фермерский городок проводит свою небольшую перепись. Он хочет выяснить, какие отрасли приносят больше всего денег городу, чтобы знать, в каких областях следует расширяться, а какие нуждаются в государственной поддержке.

Мэрия просит каждое предприятие ответить на опрос, который включает вопросы о доходах и многие другие детали. Большинство компаний рады поделиться, потому что они знают, что информация поможет городу, а также их собственному бизнесу. Они также доверяют городу сопоставление информации и удаление их идентификаторов, сохраняя анонимность данных.

Если данные собираются и усредняются перед публикацией, то фермерам и лесопильным предприятиям не придется беспокоиться о том, что кто-то еще в городе узнает, сколько денег они зарабатывают. Отдельные цифры потеряются в средних, потому что фермеров и лесозаготовителей очень много.

Но что, если вам принадлежит единственный отель в городе? Допустим, он принес 500 000 долларов дохода. Если город собирает и усредняет данные по гостиничной индустрии, а затем публикует их как часть графика вместе со всеми другими отраслями, на графике будет указано, что доход от гостиничного бизнеса составил 500 000 долларов.

Теперь люди в городе поймут, что есть только одна гостиница, и они смогут сделать вывод, что доход от нее составил 500 000 долларов. Если есть только одно из чего-то, отдельные данные не могут потеряться в среднем.

Это проблема, потому что от частных компаний обычно не требуется публично объявлять свои финансовые отчеты. Как владелец, возможно, вы не хотите, чтобы остальная часть города знала, сколько вы заработали.

У вас остается выбор: либо солгать городу и исказить цифры, что, возможно, в конечном итоге привести к более плохим решениям, либо нарушить вашу личную жизнь.

Конечно, это не лучшая ситуация. То, что мы только что продемонстрировали, показывает, что даже когда данные были анонимизированы и были удалены идентификаторы, в конце концов, они могут быть не такими анонимными.

Если бы городской статистик был достаточно сообразителен, она могла бы сделать несколько вещей, чтобы защитить вашу конфиденциальность как владельца отеля. Она могла просто исключить гостиничную отрасль из публикации или, возможно, объединить гостиничную отрасль с кучей других предприятий и назвать результаты разными отраслями.

Как владелец отеля, вы хотели бы точно знать, как будет использоваться статистика, прежде чем заполнять опрос, чтобы ваша конфиденциальность не была нарушена.

Сравнение двух наборов данных

Давайте рассмотрим еще один пример того, как отдельные данные могут быть раскрыты, даже если они анонимизированы. Допустим, компания составляет годовой отчет, который включает в себя общую стоимость заработной платы для каждого отдела.

Если бы в отделе контактного зоопарка был бюджет на заработную плату в размере 1000000 долларов в 2019 году, и он был разделен между 20 сотрудниками, все, что вы действительно могли сказать из этих данных, — это то, что средняя заработная плата составляла 50000 долларов. Вы не знаете, сколько зарабатывает менеджер или насколько плохо некоторым сотрудникам недоплачивают.

Теперь предположим, что к тому времени, когда появился отчет за 2020 год, повышения заработной платы не было, но сын одного из руководителей компании был прикреплен к отделу в качестве помощника менеджера, основная роль которого, казалось, заключалась в длительных пьяных обедах.

Если новый бюджет на заработную плату составлял 1 200 000 долларов, а повышения не было, о чем это нам говорит? Что сын, возможно, алкоголик, тянет клевые 200000 долларов за то, что почти ничего не делает.

Как видите, это демонстрирует другой способ раскрытия конфиденциальной информации из предположительно анонимных данных. Поскольку другие члены отдела были бы возмущены, если бы узнали, в интересах руководства компании каким-то образом не допустить вытаскивания этой информации из данных.

Машинное обучение

Большая часть недавних публикаций о дифференциальной конфиденциальности была связана с машинным обучением, поэтому мы собираемся сосредоточиться на этом. Во-первых, нам нужно охватить некоторые основы.

По словам писателя-фантаста Артура Кларка, любая достаточно продвинутая технология неотличима от магии. Он впервые опубликовал этот закон в 1970-х годах, и легко поверить, что если вы перенесете кого-то из того временного периода в настоящее, они будут кричать о колдовстве или обмане в отношении некоторых наших технологических разработок.

У нас есть постоянно обновляемые, тщательно отобранные новостные ленты, которые нас развлекают. Приложения перенаправления трафика, такие как Waze, которые, кажется, волшебным образом знают самый быстрый способ проехать через город, и мы можем найти любую информацию, которую захотим, всего несколькими простыми нажатиями на клавиатуре.

Все эти задачи выполняются с помощью алгоритмов, которые намного скучнее, чем волшебство. По сути, алгоритмы — это наборы инструкций или формул, которые вычисляют желаемый результат или решают проблему.

Наша жизнь полна ими — от Твиттера до вашего спам-фильтра и поиска рейсов. Если вы не луддит или специально не изо всех сил стараетесь избегать алгоритмов, большая часть вашей информации и многие ваши жизненные решения, вероятно, принимаются с их помощью. В некотором смысле алгоритмы контролируют нашу жизнь.

У этой настройки есть ряд преимуществ — она ​​позволяет легко выбрать ресторан, а найти адрес сейчас намного проще, чем во времена карт. Несмотря на эти преимущества, алгоритмы также оставляют нас открытыми для манипуляций и других негативных эффектов, но эти темы немного выходят за рамки данной статьи.

Что нас больше беспокоит, так это то, как эти алгоритмы достигают таких точных результатов и как они постоянно улучшаются.

Почему мы используем машинное обучение для улучшения алгоритмов?

Значительная часть процесса выполняется с помощью машинного обучения, которое входит в сферу искусственного интеллекта. В рамках машинного обучения данные собираются и анализируются, а алгоритмы берут то, что они узнают, а затем изменяют свои процессы для более эффективного выполнения своих задач.

В этом типе искусственного интеллекта впечатляет то, что алгоритмы машинного обучения могут улучшать себя и свои результаты без необходимости внешнего программирования со стороны человека-разработчика.

В качестве простого примера предположим, что компания, создающая приложение для чата, хочет, чтобы ее смайлы размещались в наиболее удобных для пользователей местах. Во-первых, потребуется алгоритм для подсчета наиболее часто используемых алгоритмов, чтобы можно было разместить наиболее часто используемые алгоритмы в наиболее простых положениях.

Использование эмодзи может меняться со временем, поэтому то, что когда-то было удобно размещенным смайликом, в конечном итоге может быть практически незаметным. Если это произойдет, это просто займет место и заставит задачу пользователя занять немного больше времени.

Если компания хочет максимально упростить жизнь своим пользователям, она будет использовать алгоритм машинного обучения для сбора данных об этих тенденциях, их анализа, а затем обновления размещения, чтобы убедиться, что текущие популярные смайлики легко доступны. .

Возможно, вы не особо заботитесь о смайликах, но как насчет результатов поиска? Когда вы что-то искали в Google 15 или 20 лет назад, вам часто приходилось просматривать страницы и страницы результатов или пробовать различные поисковые запросы, чтобы получить то, что вы действительно хотели. По сравнению с этим удивительно, насколько точны текущие результаты.

Как насчет механизмов интеллектуального набора текста на вашем телефоне? Если вы помните, когда платформы впервые начали предлагать следующее слово, оно было гораздо менее полезным, чем Gboard или клавиатура iPhone сейчас. В наши дни технология может улавливать больше контекста из того, что вы набираете, что делает ее довольно хорошей в предсказании правильного слова.

Если вы цените легкость и простоту этих технологий, вы должны поблагодарить их за алгоритмы машинного обучения. Если вы цените легкость и простоту этих технологий, вы должны поблагодарить их за алгоритмы машинного обучения. Но сбор данных не всегда так доброжелателен, и иногда он может нанести вред субъектам, приводя к киберпреступности или инвазивному мониторингу со стороны сборщиков данных.

Хотя вред, который может принести такая практика, может показаться очевидным, опасность, исходящая от анонимных данных, более тонкая.

Netflix «анонимизирует» пользовательские данные


Netflix New Icon от Netflix Inc. по лицензии CC0.

Давайте посмотрим на пример из реальной жизни, который показывает, насколько серьезной может быть проблема. В конце 2000-х годов сервис потокового видео Netflix подумал, что было бы неплохо передать часть своих разработок на аутсорсинг, и объявил конкурс, чтобы посмотреть, сможет ли кто-нибудь придумать лучший алгоритм для рекомендации фильмов пользователям.

Чтобы облегчить конкуренцию, Netflix объявил приз в размере 1 000 000 долларов США и опубликовал ряд своих данных. Это включало более 100 миллионов рейтингов фильмов, составленных почти полмиллионом подписчиков компании.

В ответе на часто задаваемые вопросы Netflix заверил своих пользователей, что нет необходимости сохранять конфиденциальность данных в этих выпусках, поскольку «… вся информация, позволяющая идентифицировать клиента, была удалена ; все, что осталось, это рейтинги и даты ». Это звучит хорошо, как будто компания на самом деле пыталась защитить своих пользователей, а не двигаться вперед с явным пренебрежением к их конфиденциальности.

К сожалению для Netflix, он не учел, что удаление идентифицирующих данных не обязательно делает данные действительно анонимными. Два исследователя из Университета Остина начали расследование конкуренции, исходя из предположения, что для деанонимизации данных и идентификации пользователей потребуется лишь небольшой объем информации.

Используя сложную статистику, они обнаружили, что могут деанонимизировать 99 процентов записей, используя всего несколько точек данных. Все, что требовалось исследователям, — это восемь отдельных рейтингов фильмов и даты их просмотра. Такой уровень точности учитывает даже 14-дневную ошибку при просмотре фильмов, а также возможность того, что две оценки были полностью неправильными.

Они также обнаружили, что всего с двумя парами оценок и дат они могут деанонимизировать 68 процентов записей, хотя в этом случае временная ошибка может составлять максимум два дня.

По сути, почти вся база данных может быть сопоставлена ​​с идентичностями тех, кто указан в выпуске данных. Все, что нужно было сделать исследователям, — это знать, когда испытуемые смотрели восемь фильмов и что это были за фильмы.

Этот тип информации найти несложно — коллега или предполагаемый друг могут легко извлечь информацию о том, когда вы смотрели восемь отдельных фильмов в обычном разговоре. Вы даже не подумаете, что они замышляют что-то гнусное. Не то чтобы они спрашивали данные вашей кредитной карты, это просто нормальный случайный разговор.

Злоумышленники также могли легко узнать эту информацию через IMDb, если цель использовала обе службы. Вероятно, что индивидуальные рейтинги на IMDb похожи на их рейтинги на Netflix, что упростит деанонимизацию данных.

Теперь мы подходим к ключевому вопросу: почему кому-то нужно заботиться о том, чтобы их история Netflix соответствовала их личности — это просто фильмы, верно?

Как отметили исследователи в примере в своей статье, когда они исследовали рейтинги пользователя, они смогли вывести его политические и религиозные взгляды на основе его оценок в таких фильмах, как «Власть и террор: Ноам Хомский в наши дни» и 9/11 по Фаренгейту, или Иисус из Назарета и Евангелие от Иоанна, соответственно.

Также вероятно, что вы можете найти сильную корреляцию между зрительской аудиторией и его сексуальностью или рядом других аспектов нашей жизни, которые многие люди предпочитают хранить в тайне.

Как проницательно отметили исследователи:

Проблема заключается не в том, «заботится ли средний подписчик Netflix о конфиденциальности своей истории просмотра фильмов?», А в том, «есть ли какие-либо подписчики Netflix, конфиденциальность которых может быть нарушена путем анализа набора данных Netflix Prize?»

Ответ однозначно положительный, поскольку исследователи показали, что они могут вывести несколько различных видов конфиденциальной информации только из истории Netflix человека.

Это не просто доказательства ученых, это практическая атака, которую злоумышленники могут использовать для выяснения частной информации о людях, даже если база данных предположительно анонимна. Netflix даже подали в суд и урегулировали дело по этому поводу.

Основная проблема выходит далеко за пределы Netflix и фильмов. Мы собираем ужасающие объемы данных, которые часто анонимизируются либо для более безопасного хранения, либо для того, чтобы их можно было публично публиковать для различных целей.

Но что произойдет, если что-то вроде вашей медицинской карты якобы было анонимным, а затем либо опубликовано публично, либо доступно хакеру? Если бы данные можно было деанонимизировать, как в примере с Netflix, это бы полностью нарушило вашу конфиденциальность и могло бы привести к множеству преступлений, совершенных против вас, таких как кража личных данных или страховое мошенничество.

Должен ли сбор данных быть опасным?

Нельзя отрицать, что алгоритмы удобны и предлагают множество преимуществ. Тем не менее, все же разумно опасаться их потенциальных недостатков. Хорошей новостью является то, что в определенных ситуациях мы можем получить преимущества, которые дает сбор данных и алгоритмы машинного обучения, без инвазивных нарушений нашей конфиденциальности.

Следует отметить, что за последние несколько лет крупные компании предприняли много многообещающих шагов в реформировании конфиденциальности, хотя нам еще предстоит пройти долгий путь. Один из этих методов известен как федеративное обучение , и, конечно же, наша основная цель — дифференцированная конфиденциальность.

Уход в сторону социальных наук: метод рандомизированного ответа и дифференциальная конфиденциальность

Самый простой способ объяснить дифференцированную конфиденциальность — взглянуть на что-то, что по сути является ее более простой версией. Он известен как метод рандомизированного ответа.

Если ученые исследуют что-то деликатное, возможно, преступные или сексуальные истории людей, как они могут узнать, что люди будут честны в своих опросах? По множеству причин многие из нас не хотят говорить правду о таких личных вопросах случайному человеку в лабораторном халате.

Нам не нужны постоянные записи о наших интимных моментах или неблагоразумиях, и нам неудобно рассказывать кому-то, что мы только что встретили наши самые темные секреты. Это делает невероятно трудным сбор данных в этих конфиденциальных областях.

В 1965 году SL Warner придумал решение. Допустим, он хотел знать, крали ли когда-нибудь конфеты у ребенка. Стыдясь своих действий, Уорнер знал, что не может полагаться на их ответы.

Если 99 из 100 человек это отрицали, было ли это правдой? Как он мог выяснить, какой процент людей лгал?

Он этого не сделал. Вместо этого Уорнер придумал способ помочь людям более комфортно говорить правду. В последующие годы метод рандомизированного ответа был расширен до ряда различных методов. Один из самых простых — это подбрасывание монеты.

Исследователь подойдет к человеку и объяснит, что он делает. Они говорят участнику, что зададут ему деликатный вопрос, но для защиты их конфиденциальности сначала попросят респондента подбросить монетку и скрыть результат от исследователя.

Если респондент переворачивает голову, он должен ответить «да», независимо от того, каков истинный ответ. Если выпадет решка, они должны ответить правдиво.

Когда исследователь задает вопрос «Вы когда-нибудь крали леденцы у ребенка?», А респондент отвечает «Да», исследователь не имеет возможности узнать, действительно ли респондент украл конфеты у ребенка.

Респондент может сказать «да», потому что этого требовали правила, или он может признать правду. Теоретически это защищает респондента, поэтому он должен с большей готовностью говорить правду, когда сталкивается с деликатными вопросами.

Допустим, исследователь получил 100 ответов на вопрос, 75 из которых были «Да». Зная разделение 50/50 при подбрасывании монеты, они могут сделать вывод, что 50 «Йес» были результатом орла, а остальные 25 — от людей, которые отвечали правдиво. Поскольку 25 человек правдиво сказали «Нет», исследователи могут сделать вывод, что 50 процентов людей крадут конфеты у младенцев.

В этом методе есть несколько предположений, а результаты не слишком точны в социальных науках, поэтому вместо этого часто используются другие методы. Но дело не в этом.

Главный вывод заключается в том, что подбрасывание монеты — это простой способ ввести случайные данные (принудительные головы) в базу данных, что защищает информацию, которую предоставляют респонденты.

Респондентам не нужно беспокоиться о том, что их информация будет неправильно использована или обнародована, потому что у них есть веские основания отрицать это. Даже если они правдиво ответят, что они злые конфетчики, это не имеет значения. 

Ни один из тех, кто прочитает результаты опроса, не сможет сказать, действительно ли он один из похитителей конфет или был просто вынужден ответить «да» на основании подбрасывания монеты.

По сути, так работают методы дифференциальной конфиденциальности. Однако они намного сложнее и могут дать более точные результаты, чем простой подбрасывание монеты.

Если вы не разбираетесь в математике, вы можете думать о дифференциальных алгоритмах конфиденциальности, которые мы на самом деле используем, как о чрезвычайно сложных версиях вышеизложенного. Если да, то вы можете насладиться некоторыми уравнениями из этой статьи Кэрол Дворк.

Тем не менее, основная теория все еще остается в силе — если мы добавим случайность в данные, мы сможем защитить личную информацию людей, сохраняя при этом полезный набор данных, который мы можем анализировать.

Модели дифференциальной конфиденциальности

Дифференциально частные алгоритмы могут защитить наши данные, при этом обеспечивая достаточно точное машинное обучение. Две из наиболее распространенных моделей включают глобальную дифференциальную конфиденциальность и локальную дифференциальную конфиденциальность.

Глобальная дифференциальная конфиденциальность

Согласно модели глобальной дифференциальной конфиденциальности, необработанные данные о физических лицах собираются и анализируются некоторым центральным органом, которым часто может быть техническая компания. Алгоритмы дифференциальной конфиденциальности применяются к данным в совокупности. Хотя частная личная информация никогда не может быть опубликована, она где-то собрана в необработанном виде.

Это не должно вызывать особого беспокойства, если организация пользуется доверием и имеет высокий уровень безопасности. Однако, если любое из этих условий не выполняется, дифференцированная конфиденциальность не может обеспечить безопасность личной информации.

Если компания публично выпустит дифференциально приватную базу данных, ваша информация не сможет быть деанонимизирована из нее. Тем не менее, глобальная модель позволяет компании злоупотреблять вашими необработанными данными. Хакеры также могут получить доступ к необработанным данным и использовать вашу личную информацию для совершения ряда преступлений.

Локальная дифференциальная конфиденциальность

В отличие от глобальной дифференциальной конфиденциальности, локальная дифференциальная конфиденциальность начинается с предположения, что вы не можете доверять никакую сторону своей необработанной личной информации. Вместо того, чтобы передавать ваши необработанные личные данные на какой-то центральный сервер для анализа, вы хотите сохранить свои данные, чтобы исключить возможность их раскрытия или неправомерного использования компаниями или хакерами.

Согласно модели локальной дифференциальной конфиденциальности, вы никогда никуда не отправляете свои данные. Вместо этого алгоритм приходит на ваше устройство. Когда алгоритм хочет учиться на ваших данных, он, по сути, задает вашему устройству вопросы. Затем ваше устройство добавляет случайный шум, чтобы скрыть настоящие личные данные в ответах, прежде чем отправлять их на центральный сервер.

Затем центральный сервер собирает скрытые данные от всех своих субъектов. Вместе случайный шум нейтрализуется, позволяя алгоритму учиться на частной информации, даже не имея доступа к необработанным данным какого-либо отдельного человека.

Эта модель обеспечивает большую степень конфиденциальности, поскольку исключает возможность неправомерного использования необработанных личных данных центральным органом и их кражи злоумышленниками.

Ограничения дифференциальной конфиденциальности

Дифференциальная конфиденциальность — это захватывающая концепция, которая может помочь нам уйти от мира, в котором, кажется, отслеживается почти каждый момент нашей жизни. Однако это не чудодейственное средство, и у него есть ряд ограничений.

Точность vs конфиденциальность

В основе дифференциальной конфиденциальности лежит компромисс между точностью и конфиденциальностью. Мы воспользуемся аналогией, чтобы объяснить, как это может вызвать осложнения. Предположим, вы исследователь, который хотел определить, как финансовый успех человека влияет на его привлекательность для других.

Для этого вы создали онлайн-приложение, в котором участники могут просматривать фотографию человека вместе со статистикой об их доходе, благосостоянии и пригороде проживания, а затем оценивать, насколько они привлекательны. 

Конечно, включение всей этой информации, помимо их изображений, может рассматриваться как серьезное нарушение конфиденциальности — участники могут узнать некоторые из истинных личностей субъектов, что в конечном итоге приведет к раскрытию личных финансовых данных.

Чтобы бороться с этим, вы можете размыть фотографии, чтобы скрыть личность человека. Размытие фотографий похоже на процесс, аналогичный добавлению случайного шума данных в дифференциальной конфиденциальности. Если вы только слегка размыте изображения, участники опроса все равно смогут их распознать, поэтому возникнут те же проблемы с конфиденциальностью.

Однако, если вы размыли их настолько, чтобы скрыть свою личность, участники не смогли бы увидеть, насколько они привлекательны. В таких случаях, когда важна высокая степень точности, дифференциальная конфиденциальность может быть неэффективным подходом. Это может привести либо к недостаточной защите конфиденциальности, либо к настолько неточным результатам, что они бесполезны.

Хотя дифференциальная конфиденциальность может не подходить для защиты частной информации в небольших группах и в различных других сценариях, у нее все же есть ряд применений. Как мы уже видели из приведенных выше примеров, существует ряд ситуаций, в которых данные не обязательно должны быть чрезмерно точными, что позволяет нам получить полезную информацию без серьезных нарушений конфиденциальности.

Бюджет конфиденциальности

Чем больше запросов вы запрашиваете у базы данных, тем больше вероятность нарушения конфиденциальности субъектов данных. Думайте об этом как об игре из 20 вопросов. Ваш первый вопрос может быть очень общим, например: «Я человек?» Даже если ответ «да», маловероятно, что вы сможете угадать, кто это.

Однако чем больше вы задаете вопросов, тем ближе подходите к ответу. Как только вы перейдете к вопросу типа «Я президент?» угадать правильный ответ становится намного проще. Точно так же, когда дифференциально частная база данных запрашивается повторно, открывается все больше и больше информации.

Со временем это может привести к деанонимизации данных. Это происходит из- за того, что уровень анонимности снижается с каждым запросом. Чем чаще запрашивается база данных, тем проще использовать результаты этих запросов для фильтрации случайного шума и восстановления исходных личных данных.

Чтобы компенсировать это, реализации дифференциальной конфиденциальности включают так называемый бюджет конфиденциальности. По сути, это контроль того, сколько данных может быть извлечено с помощью запросов до того, как возникнет риск деанонимизации данных. По достижении этого уровня куратор данных перестает отвечать на запросы, чтобы защитить конфиденциальность субъектов данных.

Сумма варьируется в зависимости от ряда других параметров, однако бюджеты конфиденциальности, как правило, довольно консервативны и рассчитываются на основе наихудших сценариев.

Реальные приложения дифференциальной конфиденциальности

Дифференциальная конфиденциальность — это не просто теоретическая идея, которую мы надеемся использовать в будущем. Он уже принят на вооружение для решения ряда различных задач.

Перепись США


Печать переписи населения США компанией Mysid под лицензией CC0.

Каждые 10 лет в США проводится перепись, чтобы получить представление о демографии и других событиях внутри страны. Эта информация бесценна при планировании будущего. Перепись 2020 года была первым случаем, когда ее можно было заполнить онлайн в широком масштабе.

Сбор такого большого количества личных данных вызывает серьезные опасения по поводу безопасности и того, как информация будет храниться в тайне. Чтобы бороться с рисками, Бюро переписи населения США вводит в свой процесс дифференцированную конфиденциальность.

Данные переписи обычно публикуются только в анонимной и агрегированной форме, но, как мы обсуждали ранее, деанонимизировать данные такого рода не обязательно. После переписи 2010 года Бюро переписи населения смогло повторно идентифицировать данные 17% населения США. Это беспокоит всех, кто обеспокоен конфиденциальностью, поэтому переход к дифференцированной конфиденциальности является положительным шагом.

Для переписи 2020 года Бюро переписи населения тщательно сбалансировало компромисс между точностью и конфиденциальностью. Полное устранение рисков конфиденциальности приводит к увеличению шума в данных, что снижает их точность и полезность. С другой стороны, высокий уровень точности не потребует шума данных, что значительно увеличивает риски конфиденциальности.

В рамках этого компромисса данные из небольших сообществ будут больше подвержены неточности, чем данные из более крупных групп населения. Это включает сельские районы и более мелкие расовые группы.

ДОКЛАД

В 2014 году исследователи из Google и Университета Южной Калифорнии выпустили документ под названием RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response. В нем они описали систему анонимной статистики краудсорсинга.

Как описано в документе, RAPPOR является дифференциально приватным, что позволяет «изучать лес клиентских данных, не позволяя просматривать отдельные деревья». RAPPOR использует локальную модель дифференциальной конфиденциальности, при которой данные остаются на устройстве, а не собираются на центральном сервере.

Он создан для того, чтобы дать отдельным лицам возможность убедительного правдоподобного отрицания, в то же время позволяя организациям собирать полезную статистику, такую ​​как гистограммы, частоты и информацию о категориях.

Google развернул RAPPOR в качестве механизма согласия для пользователей Chrome. Он собирает данные о сайтах, которые люди назначили своими домашними страницами, чтобы Google мог лучше понять вредоносное ПО, которое пыталось их изменить. В исследовании приняли участие около 14 миллионов пользователей, и RAPPOR позволил им сделать это без ущерба для их конфиденциальности.

RAPPOR встроен в Chromium, компонент браузера с открытым исходным кодом. Это положительный шаг с точки зрения конфиденциальности, потому что любой может взглянуть на исходный код RAPPOR. Если у них есть необходимые базовые знания, они могут увидеть, что на самом деле делает код.

Это позволяет разработчикам анализировать программное обеспечение на предмет слабых мест в системе безопасности, и хотя реализация RAPPOR в Chrome не идеальна, это определенно шаг в правильном направлении с точки зрения конфиденциальности.

RAPPOR также был выпущен под лицензией с открытым исходным кодом, «чтобы любой мог протестировать его механизмы отчетности и анализа и помочь в разработке технологии». Разработчики Firefox выразили заинтересованность в использовании RAPPOR для безопасного сбора данных телеметрии, но на данном этапе он не реализован.

яблоко

Apple развернула дифференцированные частные механизмы в ряде своих функций, в том числе:

  • Предложения QuickType

  • Подсказки поиска

  • Предложения смайликов

  • Использование типа здоровья

  • Сбой доменов Safari

  • Домены, потребляющие энергию в Safari

  • Обнаружение намерения автозапуска в Safari

Якобы, как и в случае с большинством других реализаций дифференцированной конфиденциальности, целью компании является сбор данных, которые помогают сделать ее продукты более эффективными, не нарушая при этом конфиденциальность пользователей.

Подобно RAPPOR от Google, функции Apple развертывают локальную дифференциальную конфиденциальность и добавляют шум к пользовательским данным, прежде чем они будут переданы центральным серверам. Компания не хранит никаких идентифицирующих данных вместе с данными, которые она использует для обучения своих алгоритмов, что является хорошим признаком того, что она серьезно относится к процессу.

У Apple также есть меры, которые не позволяют злоумышленнику различить информацию по коррелированным показателям. Хотя Apple преуспела в определенных областях своих систем, исследователи дифференцированной конфиденциальности также критиковали ее за некоторые параметры, которые она использует, и продолжительность хранения данных.

Apple оспаривает эти утверждения, утверждая, что ее система имеет более высокий уровень защиты, чем признали исследователи. В упомянутой выше статье Wired один из авторов исследования, профессор Университета Южной Калифорнии Александра Королова ответила на защиту Apple, подчеркнув, что точка дифференцированной конфиденциальности заключается в обеспечении безопасности системы, даже если компания, контролирующая система проявляет наихудшее поведение.

По сути, система должна быть настроена таким образом, чтобы пользователям не приходилось доверять компании, чтобы она поступала правильно — чтобы она, ее сотрудники или хакеры не могли деанонимизировать данные, даже если они захотят.

Другая серьезная проблема с подходом Apple заключается в том, что она скрывает больше информации, чем RAPPOR с открытым исходным кодом Google. Например, исследователям потребовались месяцы исследований, чтобы определить ключевой параметр, который имел решающее значение для определения конфиденциальности системы. Компания могла бы просто опубликовать это на всеобщее обозрение.

Хотя подход Apple не идеален, это все же долгожданный шаг вперед. Будем надеяться, что другие крупные технологические компании последуют их примеру и разработают аналогичные механизмы конфиденциальности.

Дифференциальная конфиденциальность и коронавирус


Коронавирусная болезнь 2019, выданная Государственным департаментом США по лицензии CC0.

В условиях пандемии коронавируса многие технологические компании также вносят свой вклад. Одним из примеров являются отчеты Google о мобильности сообщества по Covid-19, которые собирают совокупные данные от тех, кто включил Историю местоположений, и используют Карты Google для определения загруженности определенных мест.

Есть надежда, что отчеты о мобильности сообщества Covid-19 «дадут представление о том, что изменилось в ответ на работу из дома, жилье на месте и другие меры, направленные на сглаживание кривой этой пандемии».

Эти данные могут помочь чиновникам принимать эффективные решения по борьбе с пандемией. Например, если город обнаруживает, что определенные автобусные остановки слишком переполнены для эффективной социальной дистанции, он может увеличить количество предлагаемых услуг, чтобы уменьшить контакты между людьми.

В обычных обстоятельствах это может показаться тревожным событием, поэтому есть несколько вещей, которые мы должны прояснить. 

Люди, у которых включена история местоположений, уже отслеживают свое местоположение. Единственное отличие теперь состоит в том, что эта информация будет частью совокупности, публикуемой в отчетах.

В то время как некоторые могут захотеть помочь чиновникам любым возможным способом, другие могут быть обеспокоены использованием их данных. Хорошая новость заключается в том, что отчеты о мобильности сообщества Covid-19 не включают сбор необработанных индивидуальных данных. 

Вместо этого они используют дифференцированную конфиденциальность для сбора данных, которые дают полезную информацию о группе без ущерба для конфиденциальности отдельных лиц.

Хотя дифференцированная конфиденциальность Google не идеальна, компания, похоже, стремится защищать людей при передаче данных для борьбы с коронавирусом. Если вы по-прежнему обеспокоены, история местоположений — это дополнительная услуга, и, если она не была включена, ваши данные не будут собираться как часть отчетов.

Если вы хотите помочь хоть какими-то небольшими способами, включите Историю местоположений, чтобы результаты были немного более точными. Однако это означает, что Google также будет использовать информацию о вашем местоположении для других целей.

Обещание дифференциальной конфиденциальности

Некоторые идеи, лежащие в основе дифференциальной конфиденциальности, существуют с шестидесятых годов, но только в середине 2000-х был выпущен ее определяющий документ. Даже тогда он скрывался в основном в академических кругах до 2014 года, когда Google выпустил RAPPOR.

Хотя эта концепция до сих пор не получила широкого распространения, есть некоторые надежды на ее будущее, а также на будущее нашей коллективной конфиденциальности. Ряд технологических компаний, как крупных, так и мелких, уже разрабатывают услуги, основанные на этой концепции.

Как мы обсуждали ранее, дифференцированная конфиденциальность также получила большее освещение во время кризиса с коронавирусом, поскольку она предлагает нам способ сбора ценных данных, которые помогают контролировать распространение, не вызывая серьезных нарушений конфиденциальности.

Более того, мы все начинаем осознавать происходящий крупномасштабный сбор данных, а также то, как это может нанести вред нашей конфиденциальности. В 2018 году Европа начала применять GDPR, который представляет собой знаковый набор правил для защиты людей и их данных.

Примерно в то же время компании начали меняться, и крупные сборщики данных, такие как Google и Facebook, начали уделять особое внимание конфиденциальности в своих продуктах и ​​маркетинге, а также предлагать пользователям больше возможностей в своих настройках конфиденциальности.

Как сказал Цукерберг на конференции F8 в 2019 году: «Будущее за частным лицом». Хотя его послужной список может затруднить верить ему, мы все же можем надеяться, что такие концепции, как дифференциальная конфиденциальность, могут привести нас к более приватному будущему. Если сбор данных и машинное обучение могут быть эффективными, не вторгаясь в частную жизнь людей, выигрывают все.

Этот веб-сайт использует файлы cookie для улучшения вашего опыта. Мы предполагаем, что вы согласны с этим, но вы можете отказаться, если хотите. ПринимаюПодробнее