Функция распознавания лиц Amazon ложно сопоставляет 105 политиков США и Великобритании с фотографиями полицейских, но можете ли вы доверять утверждениям о точности?
Тесты показывают, что программное обеспечение для распознавания лиц Amazon неправильно сопоставило более 100 фотографий законодателей США и Великобритании с фотографиями задержанных полицией, но измерить точность не так просто, как кажется.
Amazon Rekognition неправильно идентифицировал этих политиков с вероятностью не менее 90 процентов.
В июле 2018 года Американский союз гражданских свобод провел тест с использованием инструмента распознавания лиц Amazon Rekognition, чтобы сопоставить фотографии членов Конгресса США с фотографиями людей, арестованных за преступление. ACLU обнаружил 28 ложных совпадений, подчеркнув недостатки технологии распознавания лиц, которую продают правоохранительным органам по всей стране.
Так что стало лучше?
Согласно нашему последнему эксперименту, немного.
Интересно, насколько быстро улучшается распознавание лиц, VPN Inform решила провести аналогичное исследование почти два года спустя. Мы также добавили британских политиков, в общей сложности 1959 законодателей.
Полученные результаты
Мы разделили результаты между политиками США и Великобритании. Но прежде чем мы обсудим результаты, давайте сначала рассмотрим точку опоры, на которой вращаются все эти тесты: пороги уверенности.
Пороги уверенности
Когда два изображения сравниваются с помощью Amazon Rekognition, он не просто возвращает ответ «да» или «нет». Вместо этого результаты представлены в процентах. Чем выше процент, тем увереннее Rekognition, что эти два изображения принадлежат одному и тому же человеку.
ACLU использовал настройки Rekognition по умолчанию, которые устанавливают порог достоверности на уровне 80 процентов.
Amazon осудил выводы ACLU, заявив, что порог слишком низкий. Представитель Amazon сказал GCN, что для правоохранительных целей он должен быть установлен не менее 95 процентов, а в сообщении в блоге на веб-сайте Amazon Web Services говорится, что это должно быть 99 процентов. Однако в отчете Gizmodo говорится, что эти пороговые значения устанавливаются на усмотрение полиции, и они не всегда используют рекомендации Amazon.
Повышение порога достоверности неизбежно приводит к меньшему количеству ложных срабатываний (неправильное сопоставление двух фотографий разных людей), но также к увеличению количества ложноотрицательных результатов (несоответствие двух фотографий одного и того же человека). К сожалению, мы не можем измерить последнее в этом эксперименте. Подробнее об этом позже.
Мы связались с ACLU и Amazon для комментариев и обновим эту статью, если получим ответ по записи.
нас
Набор данных США состоял из фотографий 430 представителей и 100 сенаторов.
При пороге достоверности 80 процентов Rekognition неправильно сопоставил в среднем 32 человека из Конгресса США с фотографиями в базе данных об арестах. Это на четыре больше, чем эксперимент ACLU два года назад.
По этим стандартам распознавание лиц Amazon не улучшилось и даже показало худшие результаты, чем то, что ACLU заявило два года назад.
Однако, когда мы увеличиваем порог до того, что Amazon рекомендует правоохранительным органам, мы не обнаружили неправильных совпадений с достоверностью 95% и выше. ACLU не давал результатов на этом пороге еще в 2018 году, поэтому у нас нет предыдущих результатов, с которыми мы могли бы сравнить.
Великобритания
Наш набор данных по Великобритании состоит из 1429 политиков: 632 члена парламента и 797 членов Палаты лордов. Мы сравнили их с теми же фотографиями арестованных, что и американские политики.
При пороге достоверности 80 процентов Rekognition неверно идентифицировал в среднем 73 политиков по фотографиям в базе данных арестов.
Уровень ложных срабатываний был ниже у политиков Великобритании (5 процентов), чем у политиков США (13 процентов), что может свидетельствовать о том, что британские политики существенно отличаются от своих американских коллег, по крайней мере, согласно Rekognition.
Когда мы подняли порог достоверности до 95 процентов, неправильных совпадений не было.
Расовая предвзятость
ACLU утверждал, что при 80-процентном пороге достоверности технология распознавания лиц Amazon была предвзята по расовому признаку, что позволяло идентифицировать небелых чаще, чем белых.
Наши результаты подтверждают этот вывод. Из 12 политиков, которые были неправильно идентифицированы при пороге достоверности 90 процентов или выше, шесть не были белыми (как показано на изображении в верхней части этой статьи). Это означает, что половина ошибочно идентифицированных людей были цветными, хотя небелые составляют лишь пятую часть Конгресса США и одну десятую парламента Великобритании.
Методология
Мы использовали общедоступные фотографии 430 представителей США, 100 сенаторов США, 632 депутатов парламента Великобритании и 797 членов Палаты лордов.
Они были сопоставлены с четырьмя наборами из 25 000 случайно выбранных фотографий задержанных с сайта Jailbase.com с помощью Amazon Rekognition. Эксперимент повторяли один раз для каждого набора, а результаты усредняли вместе. Поскольку ACLU не публиковал свои тестовые данные, мы не могли использовать ту же базу данных с фотографиями арестованных.
В некоторых случаях один политический деятель был неправильно идентифицирован более одного раза на нескольких фотографиях. Это считается единичным ложным срабатыванием.
Эта таблица содержит всех политиков, которые соответствуют 70% или выше, их фотографии и степень уверенности, с которой Rekognition соответствует им.
Скептически относитесь к любому случаю, когда компания, инвестировавшая в распознавание лиц, торгует метриками о том, насколько хорошо это работает. Статистика часто непрозрачна, а иногда и вводит в заблуждение.
Вот пример того, как можно изменить статистику о точности распознавания лиц. В Великобритании полиция Метрополитена заявила, что ее технология распознавания лиц допускает ошибку только в одном из 1000 случаев. Они достигли этого числа, разделив количество неправильных совпадений на общее количество людей, чьи лица были отсканированы. Это увеличивает рейтинг точности за счет включения истинных негативов — подавляющего большинства изображений, которые вообще не совпадали.
Напротив, независимые исследователи из Университета Эссекса обнаружили, что технология имеет коэффициент ошибок 81 процент, когда они разделили количество неправильных совпадений на общее количество зарегистрированных совпадений. Отчет университета намного больше соответствует тому, как большинство людей разумно оценивает точность, игнорируя истинные отрицания и сосредотачиваясь на скорости, с которой сообщаемые совпадения являются правильными.
Более поздний отчет показал, что полиция Метрополитена использовала распознавание лиц в реальном времени для сканирования лиц 8600 людей без согласия в Лондоне. Результаты соответствовали выводам Университета Эссекса: одно правильное совпадение привело к аресту и семь ложных срабатываний.
Ложноотрицательные результаты
Еще реже сообщается о количестве ложноотрицательных результатов: два изображения одного и того же человека, которые должны были быть сопоставлены, но не совпали. В качестве гипотетического примера этой ошибки на практике камера с функцией распознавания лиц в аэропорту не сможет активировать предупреждение, увидев человека, которого должна была узнать. Другая форма ложноотрицательного результата — это неспособность распознать, что лицо вообще существует на изображении.
Чтобы измерить количество ложноотрицательных результатов, нам нужно будет заполнить нашу базу данных фотографий некоторыми настоящими, но не идентичными фотографиями политиков. Поскольку нашей целью было воссоздать тест ACLU, это выходило за рамки нашего эксперимента.
Примеры использования в реальном мире
Давайте также рассмотрим то, что мы сравниваем: два набора хедшотов. Один содержит фотографии полицейских, а другой — подделанные портреты, но оба предлагают четкое изображение лица каждого человека на уровне глаз, обращенных в камеру.
Сценарии использования в реальном мире сильно отличаются. Возьмем, к примеру, видеонаблюдение. Полиция хочет сканировать лица на перекрестке и сопоставить их с базой данных криминальных фотографий. Вот лишь несколько факторов, которые еще больше неясны в отношении того, насколько хорошо распознавание лиц работает в условиях реального мира:
- Как далеко камера от объекта?
- Под каким углом камера направлена на объект?
- В каком направлении смотрит объект?
- Не виден ли объект другими людьми, предметами или погодой?
- Носит ли объект косметику, шляпу или очки, или он недавно брился?
- Насколько хороши камера и объектив? Это чисто?
- Насколько быстро движется объект? Они размытые?
Все эти и многие другие факторы влияют на точность и производительность распознавания лиц. Даже самое современное программное обеспечение для распознавания лиц не может компенсировать низкое качество или нечеткость изображений.
Слишком большое доверие к распознаванию лиц может привести к ложным арестам. Например, в апреле 2019 года студент подал в суд на Apple после того, как программное обеспечение для распознавания лиц компании ложно связало его с кражами в нескольких магазинах Apple, что привело к его аресту.
Использование порога выше 80%, безусловно, улучшает результаты. Но независимо от того, согласны ли вы с использованием полиции распознавания лиц или нет, одно можно сказать наверняка: оно не готово к использованию для идентификации без контроля человека. Amazon заявляет в своем сообщении в блоге: «В реальных сценариях общественной безопасности и правоохранительных органов Amazon Rekognition используется почти исключительно для того, чтобы помочь сузить круг вопросов и позволить людям оперативно просматривать и рассматривать варианты, используя свое суждение (а не для принятия полностью автономных решений. ). »