Новый ИИ-фреймворк опережает Claude Code в 2.5 раза
Разработан новый фреймворк для оптимизации ИИ, который показал эффективность в 2.5 раза выше, чем Claude Code и Codex при том же бюджете.
Ученые из Университета Жэньминь в Китае и Microsoft Research представили Arbor. Это новая платформа для оптимизации ИИ-систем. Arbor превращает процесс разработки из метода проб и ошибок в кумулятивное обучение.
Современные ИИ-агенты часто сталкиваются с проблемами при автономной оптимизации. Они могут "галлюцинировать" или игнорировать важные ограничения. Исправление ошибок требует долгих итераций, где сложно понять, какое изменение дало результат. Существующие системы не накапливают опыт, повторяют ошибки и теряют контекст из-за ограничений памяти. Они также подвержены "накрутке" метрик, создавая видимость прогресса без реального улучшения.
Arbor решает эти проблемы, разделяя стратегическое управление и выполнение задач. Платформа состоит из двух ключевых компонентов. Координатор — это долгоживущий ИИ-агент, который управляет общим состоянием исследования. Он формирует гипотезы и анализирует результаты. Исполнители — это короткоживущие ИИ-агенты. Они получают одну гипотезу, реализуют её в изолированной среде и отчитываются координатору.
Взаимодействие происходит через механизм Hypothesis Tree Refinement (HTR). HTR представляет процесс исследования как ветвящееся дерево. Каждый узел связывает гипотезу, исполняемый артефакт, фактические доказательства и полученные выводы. Это позволяет координатору одновременно исследовать несколько направлений. Если эксперимент исполнителя проваливается, дерево записывает причину, предотвращая повторение ошибок. Изоляция важна: каждое изменение (например, метод чанкинга или промпт) тестируется в отдельной git-ветке. Это обеспечивает точное понимание, какое изменение повлияло на результат.
Чтобы избежать "накрутки" метрик, HTR использует "шлюз слияния". Даже при высоких показателях на этапе разработки, координатор проверяет результат на независимом тестовом наборе. Артефакт сливается с основной веткой только при подтвержденном улучшении. Arbor показал значительные результаты в тестах. Он обеспечил более чем 2.5-кратный прирост производительности по сравнению со стандартными ИИ-агентами. Например, в задаче BrowseComp точность улучшилась с 45.33% до 67.67%, тогда как другие агенты застряли на 50-53%. Arbor также продемонстрировал устойчивость к переобучению и способность к обобщению на новые задачи.
Arbor интегрируется с существующими Git-процессами. Его результат — это обычная git-ветка, которую можно проверять стандартными инструментами. Однако внедрение Arbor имеет свои особенности. Основные затраты связаны с токенами для работы координатора. Также требуются вычислительные ресурсы и дисковое пространство для параллельной работы изолированных сред.
Arbor наиболее эффективен для задач с чёткими и надёжными метриками. Он подходит для длительных процессов и областей с множеством возможных решений. Это включает оптимизацию конвейеров, улучшение качества синтеза данных и настройку моделей. Не стоит использовать Arbor для задач, требующих низкой задержки, простых исправлений или если метрика оценки ненадёжна. Качество результата напрямую зависит от качества оценочной метрики. В будущем разработчики планируют расширить Arbor для работы с несколькими целями одновременно, например, оптимизируя точность, задержку и стоимость.