- Автор темы
- #1
Специалисты компании SPLX, специализирующейся на автоматизированном тестировании безопасности для ИИ-решений, продемонстрировали, что с помощью промпт-инжектов можно обойти защиту агента ChatGPT и заставить его решать CAPTCHA.
У любых ИИ-агентов есть ограничения, которые не позволяют им решать любые CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) по этическим, правовым соображениям и из-за правил платформ.
При прямом обращении агент ChatGPT отказывается решать CAPTCHA, однако исследователи доказали, что можно использовать отвлекающий маневр и обманом получить согласие агента на решение теста.
В обычном чате с ChatGPT-4o исследователи сообщили ИИ, что им нужно решить ряд фальшивых тестов CAPTCHA, и попросили чат-бота выполнить эту операцию.
По словам специалистов, этот тест показал, что LLM-агенты остаются уязвимыми перед отравлением контекста. То есть любой может манипулировать поведением агента через подстроенный разговор, а ИИ без труда может решать CAPTCHA.
У любых ИИ-агентов есть ограничения, которые не позволяют им решать любые CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) по этическим, правовым соображениям и из-за правил платформ.
При прямом обращении агент ChatGPT отказывается решать CAPTCHA, однако исследователи доказали, что можно использовать отвлекающий маневр и обманом получить согласие агента на решение теста.
В обычном чате с ChatGPT-4o исследователи сообщили ИИ, что им нужно решить ряд фальшивых тестов CAPTCHA, и попросили чат-бота выполнить эту операцию.
Затем исследователи перешли к агенту ChatGPT, скопировали разговор из чата, сообщив ему, что это предыдущая дискуссия, и попросили агента продолжить.«Этот этап подготовки критически важен для создания эксплоита. Заставив LLM подтвердить, что CAPTCHA фальшивые, а план действий приемлемый, мы повысили шансы на то, что агент подчинится нам позже», — рассказывают специалисты.

Утверждая, что CAPTCHA поддельные, исследователи обошли защиту агента, обманув ChatGPT и вынудив его успешно решить reCAPTCHA V2 Enterprise, reCAPTCHA V2 Callback и Click CAPTCHA. Впрочем, с последней агент справился не с первого раза. Не получив инструкций, он принял решение самостоятельно и заявил, что был вынужден скорректировать движения курсора, чтобы лучше имитировать поведение человека.«ChatGPT-агент принял предыдущий чат как контекст, сохранил согласие и начал решать CAPTCHA без какого-либо сопротивления», — говорят в SPLX.

По словам специалистов, этот тест показал, что LLM-агенты остаются уязвимыми перед отравлением контекста. То есть любой может манипулировать поведением агента через подстроенный разговор, а ИИ без труда может решать CAPTCHA.
Тест также демонстрирует, что атакующие могут использовать манипуляции с промптами, чтобы обманом заставить ИИ-агента обойти реальные средства защиты, убедив его, что они поддельные. Это может привести к утечкам данных, доступу к ограниченному контенту или генерации запрещенного контента.«Агент смог решить сложные CAPTCHA, предназначенные для подтверждения того, что пользователь — человек, и пытался придать своим действиям больше сходства с человеческими. Это ставит под сомнение эффективность CAPTCHA в качестве меры безопасности», — пишут исследователи.
«Ограничения, основанные только на обнаружении намерений или фиксированных правилах, слишком хрупкие. Агентам нужна более сильная контекстная осведомленность и более тщательная гигиена памяти, чтобы избежать манипуляций через прошлые разговоры», — резюмируют в SPLX.