Исследователь Марко Фигероа обманул ChatGPT, представив запрос как игру в "угадайку": ИИ должен был загадать действительный ключ Windows 10, а после фразы пользователя «Сдаюсь» — раскрыть его.
Условия игры обязывали нейросеть использовать только реальные данные и исключали отказ от участия. Когда исследователь ввел триггерную фразу, ChatGPT выдал валидные лицензионные ключи, включая ключ банка Wells Fargo. Это стало возможным благодаря маскировке запроса (термины вроде "серийный номер" скрывались в HTML-тегах) и игровому контексту, который "усыпил" защитные механизмы (guardrails).
Ключи Windows (Home, Pro, Enterprise) присутствовали в обучающих данных ChatGPT, так как они часто публикуются на форумах. Нейросеть не распознала их конфиденциальность из-за массовой доступности.
Кроме того, guardrails были настроены на блокировку прямых запросов, но не учитывали социальную инженерию: игра заставила ИИ интерпретировать выдачу ключа как "честное соблюдение правил", а не нарушение безопасности. Уязвимость назвали Guessing Game Guardrail Jailbreak — она затрагивала даже актуальные модели GPT-4o.