ИИ-бэкдор в открытом коде: OpenClaw угрожает репозиториям

5 мая 2026 г.

Исследователи обнаружили, что любой открытый репозиторий может стать бэкдором для ИИ-агентов. Инструмент OpenClaw выявил критическую уязвимость в безопасности.

Изображение, символизирующее искусственный интеллект, проникающий в код или открытый репозиторий, бэкдор.

В сфере кибербезопасности возникла новая угроза, связанная с инструментами для ИИ-агентов, такими как CLI-Anything. Эти решения, призванные упростить работу с кодом, открывают путь для атак на уровне агентов, которые остаются незамеченными традиционными средствами защиты.

Всего два месяца назад исследователи из Data Intelligence Lab Гонконгского университета представили CLI-Anything. Этот инструмент анализирует исходный код любого репозитория и создает структурированный интерфейс командной строки (CLI), которым могут управлять ИИ-агенты. Он поддерживает Claude Code, Codex, OpenClaw, Cursor и GitHub Copilot CLI. С момента запуска в марте 2026 года CLI-Anything набрал более 30 000 звезд на GitHub. Однако механизм, делающий его удобным для агентов, также создает уязвимость для «отравления» на уровне агентов. Сообщество кибербезопасности уже обсуждает эти последствия, превращая архитектуру CLI-Anything в наступательные сценарии.

Проблема не в том, что делает CLI-Anything, а в том, что он представляет. Инструмент генерирует файлы SKILL.md — это те же артефакты инструкционного слоя, в которых исследование Snyk ToxicSkills обнаружило 76 подтвержденных вредоносных нагрузок на ClawHub и skills.sh в феврале 2026 года. Отравленное определение навыка не вызывает CVE и не появляется в спецификации программного обеспечения (SBOM). Ни один из распространенных сканеров безопасности не имеет категории обнаружения вредоносных инструкций, встроенных в определения навыков агентов, потому что такой категории просто не существовало полтора года назад. Cisco подтвердила этот пробел в апреле 2026 года, отметив, что традиционные инструменты безопасности приложений не были разработаны для этого.

Мерритт Бэр, директор по безопасности Enkrypt AI и бывший заместитель CISO в Amazon Web Services (AWS), подчеркнула, что SAST и SCA созданы для кода и зависимостей, но не проверяют инструкции. Это не уязвимость одного поставщика, а структурный пробел в том, как вся индустрия безопасности отслеживает цепочки поставок программного обеспечения. Сейчас мы находимся в «окне до эксплуатации», когда CLI-Anything уже работает, атакующее сообщество его обсуждает, а директора по безопасности могут принять меры до первого инцидента.

Традиционная безопасность цепочки поставок работает на двух уровнях: уровне кода (где работает SAST) и уровне зависимостей (где работает SCA). Инструменты-мосты для агентов, такие как CLI-Anything, коннекторы MCP, файлы правил Cursor и навыки Claude Code, работают на третьем уровне между ними. Этот уровень, называемый уровнем интеграции агентов, включает конфигурационные файлы, определения навыков и наборы инструкций на естественном языке, которые сообщают ИИ-агенту, что может делать программное обеспечение и как им управлять. Ничто из этого не выглядит как код, но все это выполняется как код. Картер Рис, вице-президент по ИИ в Reputation, отметил, что современные большие языковые модели (LLM) полагаются на сторонние плагины, что создает уязвимости в цепочке поставок, где скомпрометированные инструменты могут внедрять вредоносные данные в поток разговора, обходя внутренние системы безопасности.

Исследователи из Университета Гриффита, Наньянского технологического университета, Университета Нового Южного Уэльса и Токийского университета задокументировали цепочку атак в апрельском документе «Атаки отравления цепочки поставок на экосистемы навыков кодирующих агентов LLM». Команда представила DDIPE (Document-Driven Implicit Payload Execution) — технику, которая встраивает вредоносную логику в примеры кода внутри документации навыков. Через четыре фреймворка агентов и пять LLM DDIPE достигла показателей обхода от 11,6% до 33,5%. Статический анализ обнаружил большинство образцов, но 2,5% избежали всех четырех уровней обнаружения. Ответственное раскрытие привело к четырем подтвержденным уязвимостям и двум исправлениям от поставщиков.

Вот как выглядит цепочка атаки: злоумышленник отправляет файл SKILL.md в проект с открытым исходным кодом, содержащий инструкции по настройке, примеры кода и шаблоны конфигурации. Это выглядит как стандартная документация, и рецензент кода пропустит ее, поскольку она не является исполняемой. Однако примеры кода содержат встроенные инструкции, которые агент будет интерпретировать как операционные директивы. Разработчик использует инструмент-мост для подключения своего агента к репозиторию. Агент поглощает определение навыка и доверяет ему, так как отсутствует уровень проверки, который мог бы отличить добронамеренное от вредоносного на уровне инструкций. Агент выполняет встроенную инструкцию, используя свои собственные легитимные учетные данные. Системы обнаружения и реагирования на конечных точках (EDR) видят одобренный вызов API от авторизованного процесса и пропускают его. Эксфильтрация данных, изменения конфигурации и сбор учетных данных проходят по каналам, которые система мониторинга считает нормальным трафиком. Рис определил структурный недостаток, делающий эту цепочку смертельной: значительная уязвимость в корпоративном ИИ — это нарушенный контроль доступа, где плоская авторизация LLM не учитывает разрешения пользователя. Скомпрометированное определение навыка, использующее эту плоскую авторизацию, не нуждается в повышении привилегий, оно уже их имеет. Каждое звено в этой цепочке невидимо для текущего стека безопасности.

Pillar Security продемонстрировала вариант этой цепочки против Cursor в январе 2026 года (CVE-2026-22708). Неявно доверенные встроенные команды оболочки могли быть отравлены через косвенную инъекцию запросов, превращая доброкачественные команды разработчика в векторы произвольного выполнения кода. Пользователи видели только конечную команду, отравление происходило через другие команды, которые IDE никогда не выводила для одобрения.

Доказательства уже есть в производстве. В задокументированной цепочке атак от апреля 2026 года специально созданный заголовок проблемы GitHub активировал ИИ-бота для сортировки, подключенного к Cline. Бот эксфильтровал GITHUB_TOKEN, который злоумышленник использовал для публикации скомпрометированной зависимости npm, установившей второго агента примерно на 4000 машин разработчиков на восемь часов. Был всего один заголовок проблемы, а у злоумышленников было восемь часов доступа. Ни один человек не одобрил это действие.

Аудит Snyk ToxicSkills в феврале 2026 года просканировал 3984 навыка агентов с ClawHub (публичной торговой площадки для фреймворка агентов OpenClaw) и skills.sh. Результаты показали, что 13,4% всех навыков содержали как минимум одну критическую проблему безопасности. Ежедневное количество отправляемых навыков выросло с менее чем 50 в середине января до более чем 500 к началу февраля. Барьер для публикации составлял файл SKILL.md и учетная запись GitHub недельной давности. Без подписи кода, без проверки безопасности, без песочницы. OpenClaw не является исключением, это общая тенденция. Бэр отметила, что порог входа крайне низок. Добавление навыка может быть таким же простым, как загрузка документа Word или легкого файла конфигурации. Это радикально иной профиль риска, чем скомпилированный код. Она указала на проекты, такие как ClawPatrol, которые начали каталогизировать и сканировать вредоносные навыки, что является доказательством того, что экосистема движется быстрее, чем корпоративная защита.

Кампания ClawHavoc, впервые о которой сообщила Koi Security в конце января 2026 года, первоначально выявила 341 вредоносный навык на ClawHub. Последующий анализ Antiy CERT расширил это число до 1184 скомпрометированных пакетов на платформе. Кампания доставляла Atomic Stealer (AMOS) через определения навыков с профессиональной документацией. Навыки с названиями solana-wallet-tracker и polymarket-trader соответствовали тому, что активно искали разработчики.

Уровень протокола MCP несет аналогичную угрозу. OX Security сообщила в апреле, что исследователи отравили девять из 11 торговых площадок MCP, используя демонстрационные серверы. Trend Micro изначально обнаружила 492 сервера MCP, доступных из интернета без аутентификации; к апрелю это число выросло до 1467. Как сообщал The Register, основная проблема заключается в механизме транспорта SDK Anthropic для MCP. Любой разработчик, использующий официальный SDK, наследует этот класс уязвимостей.

VentureBeat разработал матрицу, сопоставляющую три уровня атак, задокументированных в исследованиях и отчетах об инцидентах, с возможностями обнаружения текущих инструментов SAST, SCA и инструментов уровня агентов:

Уровень кода: Угроза — инъекция промптов в ИИ-генерируемом коде. Текущее обнаружение — сканеры SAST. Причина пропуска — большинство SAST не имеют категории для инъекций промптов в ИИ-коде. Рекомендуемое действие — убедиться, что SAST сканирует ИИ-генерируемый код на инъекции промптов.
Уровень зависимостей: Угроза — вредоносные серверы MCP, навыки агентов, реестры плагинов. Текущее обнаружение — инструменты SCA. Причина пропуска — SCA не генерирует специфические для ИИ спецификации материалов. Зависимости уровня агентов невидимы. Рекомендуемое действие — убедиться, что SCA включает серверы MCP, навыки агентов и реестры плагинов в инвентаризацию зависимостей.
Уровень интеграции агентов: Угроза — отравленные файлы SKILL.md, вредоносные наборы инструкций, враждебные файлы правил. Текущее обнаружение — отсутствовало до апреля 2026 года. Причина пропуска — ни один инструмент не проверяет семантическое значение файлов инструкций агентов. Рекомендуемое действие — развернуть Cisco Skill Scanner или Snyk mcp-scan. Назначить команду для работы с этим уровнем.

Диагноз Бэр для третьего уровня применим ко всей матрице: текущие сканеры ищут известные вредоносные артефакты, а не враждебные инструкции, встроенные в иначе валидные навыки. Открытый Skill Scanner от Cisco и mcp-scan от Snyk представляют собой первые инструменты, специально разработанные для этого уровня.

Вот как руководители по безопасности могут опередить проблему:

Инвентаризация всех инструментов-мостов для агентов: Это включает CLI-Anything, коннекторы MCP, файлы правил Cursor, навыки Claude Code, расширения GitHub Copilot. Если команда разработчиков использует неинвентаризированные инструменты, риск невозможно оценить.
Аудит источников навыков агентов: Это нужно делать так же, как аудитируются реестры пакетов. Бэр точно сформулировала: «Навык — это фактически недоверенное исполняемое намерение, даже если это просто текст». Отключите неуправляемые пути приема, пока не будут установлены средства контроля. Создайте процесс проверки и белого списка для навыков. OWASP Agentic Skills Top 10 (AST01: Malicious Skills) предоставляет основу для согласования средств контроля.
Развертывание сканирования на уровне агентов: Оцените открытый Skill Scanner от Cisco и mcp-scan от Snyk для поведенческого анализа файлов инструкций агентов. Если специализированные инструменты недоступны, требуйте, чтобы второй инженер читал каждый SKILL.md перед установкой.
Ограничение привилегий выполнения агентов и инструментарий среды выполнения: ИИ-агенты для кодирования не должны работать с тем же объемом учетных данных, что и разработчик, который их вызвал. Рис подтвердил структурный недостаток: плоская авторизация означает, что скомпрометированному навыку не нужно повышать привилегии. Бэр рекомендует: «Инструментируйте наблюдаемость среды выполнения. К каким данным обращается агент, какие действия он предпринимает, и соответствуют ли они ожидаемому поведению?»
Назначение ответственности за пробел между уровнями: Самые опасные атаки успешны, потому что они попадают между категориями обнаружения. Назначьте команду для работы с уровнем интеграции агентов. Проверяйте каждый SKILL.md, конфигурацию MCP и файл правил, прежде чем они попадут в среду.

Бэр подчеркнула опасность этого нового вектора атаки. «Это очень похоже на раннюю безопасность контейнеров, но мы все еще находимся на стадии 'мы доберемся до этого' в большинстве организаций», — сказала она. Она добавила, что в AWS потребовалось несколько громких тревожных звонков, прежде чем безопасность контейнеров стала обязательной. Разница на этот раз — скорость. «Нет конвейера сборки, нет барьера компиляции. Просто контент», — отметила она. CLI-Anything — это не угроза. Это доказательство того, что уровень интеграции агентов существует, быстро растет, и атакующее сообщество уже его обнаружило. 33 000 разработчиков, отметивших репозиторий звездочкой, показывают командам безопасности, куда движется разработка программного обеспечения. Полтора года назад категория обнаружения отравления уровня интеграции агентов не существовала. Cisco и Snyk выпустили первые инструменты для этого в апреле. Окно между этими двумя фактами закрывается. Директора по безопасности, которые еще не начали инвентаризацию, уже отстают.