Nature: Созданные ИИ тексты будут размечаться водяными знаками
Исследователи из лондонской лаборатории Google DeepMind создали способ помечать текст, созданный искусственным интеллектом. Водяной знак распространили среди пользователей чат-ботов.
Ученые создали водяной знак, о котором сообщается в журнале Nature. Он не первый среди созданных для текста, сгенерированного искусственным интеллектом, и не способен противостоять настойчивым попыткам удалить его. Но это первая масштабная демонстрация водяного знака в реальном мире.
Скотт Ааронсон, специалист по информатике из Техасского университета в Остине, считает самым важным то, что систему действительно развернули. До августа он работал над водяными знаками в OpenAI — компании, создавшей ChatGPT.
Определение текстов, созданных с помощью искусственного интеллекта, становится все более важным. Это поможет решить проблемы фальшивых новостей и академического списывания. Также это позволит избежать ухудшения качества будущих моделей, если их обучать на контенте, созданном ИИ.
В ходе эксперимента пользователи большой языковой модели Gemini от Google оценили 20 миллионов ответов. Они не заметили разницы в качестве между текстами с водяными знаками и без них.
Фуронг Хуанг, специалист по информатике из Мэрилендского университета, рад, что Google сделала этот шаг навстречу технологическому сообществу. Захар Шумайлов, ученый-компьютерщик из Кембриджского университета (Великобритания), считает, что в ближайшем будущем большинство коммерческих инструментов будут снабжены подобными водяными знаками.
Выбор слов
Поставить водяной знак на текст сложнее, чем на изображение. В случае с текстом можно изменить только одно — сами слова.
Водяной знак DeepMind под названием SynthID-Text изменяет слова, которые выбирает модель, особым образом. Этот способ можно обнаружить с помощью криптографического ключа.
По сравнению с другими подходами, водяной знак DeepMind легче обнаружить, но его применение не замедляет генерацию текста. По словам Шумайлова, бывшего соавтора и брата одного из авторов исследования, этот метод превосходит схемы конкурентов по нанесению водяных знаков на LLM.
Инструмент стал открытым, чтобы разработчики могли добавлять на свои модели водяные знаки. Пушмит Кохли из DeepMind надеется, что другие разработчики подхватят эту идею. Google держит ключ в секрете, поэтому пользователи не смогут обнаружить водяные знаки Gemini с помощью инструментов обнаружения.
Власти считают водяные знаки действенным способом борьбы с распространением текста, созданного искусственным интеллектом. Но есть проблема: сложно обязать разработчиков использовать водяные знаки и согласовать их подходы. Исследователи из Швейцарского федерального технологического института в Цюрихе доказали, что любой водяной знак можно удалить или подделать, чтобы создать впечатление, будто текст сгенерирован ИИ.
Токен-турнир
DeepMind использует метод, который включает добавление водяного знака в алгоритм выборки. Это шаг в генерации текста, отдельный от основного алгоритма.
LLM — это сеть ассоциаций, обученная на миллиардах слов и частей слов (лексем). Получив строку текста, модель оценивает вероятность каждой лексемы из своего словаря быть следующей в предложении. Алгоритм выборки выбирает лексему в соответствии с набором правил.
Алгоритм SynthID-Text использует криптографический ключ для присвоения баллов токенам. Токены-кандидаты выбираются из распределения в зависимости от их вероятности и помещаются в «турнир». В турнире алгоритм сравнивает баллы, и побеждает тот, у кого больше баллов. Процесс продолжается до тех пор, пока не останется один токен, который будет выбран для использования в тексте.
Эта схема усложняет обнаружение водяного знака, так как нужно прогнать криптографический код по тексту, чтобы найти высокие оценки, указывающие на «выигрышные» токены. Это также затрудняет удаление водяного знака.
Раунды турнира можно сравнить с комбинированным замком, в котором каждый раунд — это отдельная цифра, необходимая для его разблокировки.
Этот механизм усложняет задачу по удалению водяного знака, — говорит Хуанг.
Авторы показали, что водяной знак можно обнаружить при работе с текстом из 200 лексем, даже если использовать второй LLM для перефразирования текста. Для более коротких строк текста водяной знак менее устойчив.
Исследователи не изучали, насколько хорошо водяной знак может противостоять попыткам удаления.
Устойчивость водяных знаков к таким атакам важна для безопасности ИИ, — говорит ученый-компьютерщик Ив-Александр-де Монтжойе из Имперского колледжа Лондона.
Кохли надеется, что водяной знак будет полезен при использовании LLM.
Мы хотели создать инструмент, который сообщество сможет улучшить, — заключает он.