Xiaomi HarnessX: ИИ переписывает свой код в процессе
ИИ-платформа Xiaomi HarnessX динамически перестраивает свою архитектуру во время выполнения задач, что особенно эффективно для малых моделей.
Исследователи Xiaomi представили HarnessX — новую платформу, которая автоматизирует улучшение «обвязки» для ИИ-агентов. Это решение призвано устранить ручную настройку и статические системы, значительно повышая производительность агентов.
«Обвязка» (harness) — это программная прослойка, связывающая базовую языковую модель (LLM) с её окружением. Сейчас эти системы статичны, их улучшение требует ручной работы. HarnessX делает обвязку модульной и способной к самооптимизации. Тесты показали рост производительности в среднем на 14.5%, а для открытой модели Qwen3.5-9B прирост составил 44% в задачах планирования.
Проектирование обвязок сталкивается с тремя основными проблемами. Во-первых, они статичны и создаются вручную. Любые изменения в модели или инструментах требуют переписывания кода, нет механизмов для автоматического обучения. Во-вторых, обвязки страдают от архитектурной запутанности. Компоненты, такие как шаблоны запросов, обёртки инструментов и управление памятью, тесно связаны. Изменение одного может незаметно нарушить работу других. В-третьих, обвязка и базовая модель оптимизируются отдельно. Данные выполнения обычно игнорируются, что мешает улучшению модели и обвязки.
HarnessX решает эти сложности, рассматривая обвязку как «объект первого класса». Это означает, что она модульна, может быть сериализована и заменена независимо. Система разделяет конфигурацию модели и обвязки, позволяя легко менять или развивать прослойку без изменения основной модели.
HarnessX делит поведение агента на компоненты: сбор контекста, управление памятью, инструментарий, поток управления и наблюдаемость. Каждый компонент реализован как «процессор», который подключается к определённым этапам жизненного цикла обвязки. Такая модульная структура позволяет системе менять, добавлять или удалять эти процессоры без нарушения работы всей системы.
Для автоматической оптимизации этой модульной структуры HarnessX использует AEGIS — движок эволюции на основе трассировок. AEGIS рассматривает адаптацию обвязки как задачу обучения с подкреплением. Чтобы избежать проблем, таких как «взлом награды» (когда система находит обходные пути вместо решения задачи), «катастрофическое забывание» (когда исправление одной ошибки ломает другую функцию) и «недостаточная разведка» (когда система фокусируется на мелких изменениях), AEGIS использует четырёхэтапный конвейер:
- Digester: Сжимает трассировки выполнения в структурированные сводки, чтобы определить, где агент потерпел неудачу.
- Planner: Анализирует эти сводки, позволяя системе исследовать структурные изменения, а не только локальные корректировки запросов.
- Evolver: Генерирует и тестирует изменения кода обвязки, чтобы убедиться в их корректной работе перед развёртыванием.
- Critic и gate: Critic оценивает изменения для выявления «взлома награды», а детерминированный gate отклоняет любые обновления, которые ухудшают ранее решённые задачи, предотвращая «катастрофическое забывание».
Исследователи отмечают, что изолированная оптимизация обвязки или модели неэффективна. HarnessX объединяет эволюцию обвязки с обучением модели. Трассировки выполнения, созданные при адаптации обвязки, становятся сигналами обучения с подкреплением для модели. Это позволяет модели учиться лучше использовать новые стратегии. Для этого применяется cross-harness GRPO, который объединяет траектории агента для одной задачи из разных версий обвязки. Модель усваивает высокоуровневые изменения стратегии, например, использование нового API.
Для проверки HarnessX провели тесты на пяти бенчмарках, включая разработку ПО, многоэтапное обслуживание клиентов, веб-навигацию, многошаговое рассуждение и планирование действий. Мета-агент, работающий на Claude Opus 4.6, писал код для эволюции обвязок. Задачи выполняли агенты на Claude Sonnet 4.6, GPT-5.4 и открытой модели Qwen3.5-9B. HarnessX сравнивали со статичной обвязкой и Claude Code SDK. Система улучшила производительность в 14 из 15 комбинаций, показав средний прирост в 14.5%. Наибольшую выгоду получили слабые модели: Qwen3.5-9B показал рост на 44% в ALFWorld и на 18.2% в SWE-bench. Совместная эволюция добавила ещё 4.7% производительности для моделей с открытым исходным кодом.
Примеры из тестов показывают, как HarnessX решает сложные проблемы. В бенчмарке GAIA система заменила медленный браузер, который не справлялся с JavaScript-тяжёлым интерфейсом Wikipedia, прямым запросом к MediaWiki API. В тестах WebShop система добавила процессор, который предотвращал зацикливание агента на страницах, когда он бесконечно нажимал «далее» без совершения покупки.
Однако у системы есть ограничения. Сейчас она полагается на мощные модели, вроде Claude Opus, для роли мета-агента, который переписывает код обвязки. Возможности открытых моделей в этой роли пока не проверены. Также, если базовая модель слишком слаба для выполнения сложных задач, HarnessX не сможет значительно улучшить её способности. Несмотря на это, HarnessX доказывает, что инженерия обвязок — это важный фактор для повышения возможностей ИИ, особенно для небольших моделей. Разработчики планируют выпустить код в будущем.