NatComm: Новая математическая модель обеспечит безопасное использование ИИ
Инструменты на основе искусственного интеллекта все чаще используются для отслеживания и наблюдения за нами как онлайн, так и лично, однако их эффективность сопряжена с большими рисками.
Ученые-компьютерщики из Оксфордского института интернета, Имперского колледжа Лондона и Калифорнийского университета в Лувене разработали новую математическую модель, которая может помочь людям лучше понять риски, связанные с ИИ, и помочь регулирующим органам в защите частной жизни людей.
Результаты исследования опубликованы в журнале Nature Communications.
Впервые метод обеспечивает надежную научную основу для оценки методов идентификации, особенно при работе с крупномасштабными данными. Это может включать, например, мониторинг того, насколько точно рекламный код и невидимые трекеры идентифицируют пользователей в Интернете по небольшим фрагментам информации, таким как часовой пояс или настройки браузера (метод, называемый «отпечатками пальцев браузера»).
Ведущий автор исследования доктор Люк Роше, старший научный сотрудник Оксфордского института интернета, входящего в состав Оксфордского университета, сказал:
Мы рассматриваем наш метод как новый подход, позволяющий оценить риск повторной идентификации при публикации данных, а также оценить современные методы идентификации в критических условиях с высоким уровнем риска.
В таких местах, как больницы, доставка гуманитарной помощи или пограничный контроль, ставки невероятно высоки, и необходимость в точной и надежной идентификации имеет первостепенное значение.
Метод опирается на область байесовской статистики, позволяя узнать, как можно идентифицировать человека в небольших масштабах, и экстраполировать точность идентификации на более крупные популяции до 10 раз лучше, чем предыдущие эвристики и эмпирические правила. Это дает методу уникальные возможности для оценки того, как различные методы идентификации данных будут работать в масштабе, в различных приложениях и поведенческих условиях. Это может помочь объяснить, почему некоторые методы идентификации ИИ показывают высокую точность при тестировании в небольших тематических исследованиях, но затем неправильно идентифицируют людей в реальных условиях.
Результаты исследования весьма своевременны, учитывая проблемы, возникающие с анонимностью и конфиденциальностью в связи с быстрым развитием методов идентификации на основе ИИ. Например, в настоящее время испытываются инструменты ИИ для автоматической идентификации людей по голосу в онлайн-банкинге, по глазам при оказании гуманитарной помощи или по лицу в правоохранительных органах.
По мнению исследователей, новый метод может помочь организациям найти оптимальный баланс между преимуществами технологий ИИ и необходимостью защищать личную информацию людей, делая повседневное взаимодействие с технологиями более безопасным и надежным. Метод тестирования позволяет выявить потенциальные недостатки и области для улучшения до полномасштабного внедрения, что очень важно для обеспечения безопасности и точности.
Соавтор работы доцент Ив-Александр-де Монтжуа (Институт науки о данных, Имперский колледж, Лондон) сказал:
Наш новый закон масштабирования впервые предоставляет принципиальную математическую модель для оценки того, как методы идентификации будут работать в масштабе.
Понимание масштабируемости идентификации необходимо для оценки рисков, связанных с этими методами повторной идентификации, в том числе для обеспечения соответствия современным законам о защите данных во всем мире.
Доктор Люк Роше заключил:
Мы считаем, что эта работа представляет собой важнейший шаг на пути к разработке принципиальных методов оценки рисков, связанных с использованием все более совершенных технологий искусственного интеллекта и природы идентификации по следам человека в Интернете.
Мы ожидаем, что эта работа окажет большую помощь исследователям, специалистам по защите данных, комитетам по этике и другим практикам, стремящимся найти баланс между обменом данными для исследований и защитой частной жизни пациентов, участников и граждан.
Ранкее ученые предложили создать новый тип сети, чтобы избежать проблем с идентификацией пользователей.