ChatGPT выдал ключи Windows по команде "сдаюсь"

Условия игры обязывали нейросеть использовать только реальные данные и исключали отказ от участия

Исследователь Марко Фигероа обманул ChatGPT, представив запрос как игру в "угадайку": ИИ должен был загадать действительный ключ Windows 10, а после фразы пользователя «Сдаюсь» — раскрыть его. 

Условия игры обязывали нейросеть использовать только реальные данные и исключали отказ от участия. Когда исследователь ввел триггерную фразу, ChatGPT выдал валидные лицензионные ключи, включая ключ банка Wells Fargo. Это стало возможным благодаря маскировке запроса (термины вроде "серийный номер" скрывались в HTML-тегах) и игровому контексту, который "усыпил" защитные механизмы (guardrails).

Ключи Windows (Home, Pro, Enterprise) присутствовали в обучающих данных ChatGPT, так как они часто публикуются на форумах. Нейросеть не распознала их конфиденциальность из-за массовой доступности. 

Кроме того, guardrails были настроены на блокировку прямых запросов, но не учитывали социальную инженерию: игра заставила ИИ интерпретировать выдачу ключа как "честное соблюдение правил", а не нарушение безопасности. Уязвимость назвали Guessing Game Guardrail Jailbreak — она затрагивала даже актуальные модели GPT-4o.

13 июля 2025, 18:54 | Просмотры: 39

Добавить новый комментарий

Для добавления комментария, пожалуйста войдите

0 комментариев