SkillOpt от Microsoft улучшает ИИ-агентов без переобучения
Microsoft представила SkillOpt, инструмент с открытым исходным кодом. Он автоматически улучшает навыки ИИ-агентов, не меняя веса моделей.
Microsoft представила SkillOpt, новый открытый фреймворк с лицензией MIT. Он предназначен для оптимизации навыков ИИ-агентов. Этот инструмент решает проблему медленной и неточной настройки их работы.
Сейчас оптимизация навыков ИИ-агентов — это ручной процесс. Разработчики меняют текстовые файлы с инструкциями, часто методом проб и ошибок. SkillOpt превращает эти текстовые документы в обучаемые объекты. Фреймворк использует методы глубокого обучения для систематического улучшения инструкций. Важно, что это происходит без изменения весов основной модели ИИ.
SkillOpt значительно повышает точность работы моделей, таких как GPT-5.5 и Qwen. Он превосходит существующие решения на отраслевых тестах. Результат — компактные и переносимые артефакты навыков. Они позволяют ИИ-агентам легко адаптироваться к новым задачам.
Навыки агентов содержат процедурные знания в виде текста. Это могут быть правила использования инструментов или ограничения вывода. Они помогают агентам адаптироваться к сложным рабочим процессам. Однако сами текстовые навыки требуют точной настройки для лучшей производительности.
Ифан Ян, старший инженер-исследователь из Microsoft Research Asia, объясняет сложность. Проблема не в изменении навыка, а в гарантии, что изменение улучшит работу. Он выделяет три частые ошибки: отсутствие контроля шага, отсутствие валидации и отсутствие «отрицательной памяти». Например, одно непроверенное изменение снизило производительность GPT-5.5 на SpreadsheetBench с 41.8 до 41.1. Эти проблемы особенно заметны в многошаговых задачах. Там модели часто испытывают трудности с форматированием и самопроверкой.
Существующие методы оптимизации промптов, вроде TextGrad и GEPA, работают с отдельными промптами. Методы эволюции навыков, как EvoSkill и Trace2Skill, улучшают папки навыков. Но ни один из них не применяет строгие математические принципы глубокого обучения. SkillOpt вводит эти принципы, такие как скорости обучения и валидационные ворота, для непрерывного обучения одного компактного документа навыков.
SkillOpt оптимизирует текстовый документ через итеративный цикл «предложение-тестирование». Этот процесс разделяет модель, выполняющую задачи, и модель, оптимизирующую навык.
- SkillOpt начинает с исходного документа навыка и замороженной целевой модели. Целевая модель выполняет пакет задач, создавая траектории выполнения.
- Офлайн-оптимизатор анализирует эти траектории, разделяя успешные и неудачные попытки. Это помогает выявить системные ошибки.
- На основе этих ошибок оптимизатор предлагает структурные изменения: добавление, удаление или замену частей документа.
- Предложенные изменения проверяются, чтобы отфильтровать дубликаты или противоречия. Затем оптимизатор ранжирует их по ожидаемой полезности.
- SkillOpt применяет только часть изменений, ограниченную «бюджетом редактирования». Это создает кандидатный навык.
- Кандидатный навык оценивается на отдельном валидационном наборе. Если он улучшает результат, его принимают. Если нет, изменения отклоняются и отправляются в буфер отклоненных правок.
«Бюджет редактирования» работает как скорость обучения. Он ограничивает количество изменений за раз, предотвращая слишком сильное отклонение навыка. Валидационный набор гарантирует, что изменения принимаются только при реальном улучшении производительности. В конце эпохи SkillOpt делает медленное обновление. Это похоже на термин «моментум» в глубоком обучении.
Исследователи протестировали SkillOpt на разных моделях: от GPT-5.5 до GPT-5.4-mini и Qwen3.5-4B. Тесты проводились в различных средах, включая обычный чат и сложные среды кодирования. SkillOpt показал превосходство во всех 52 комбинациях модели, бенчмарка и среды. Для GPT-5.5 он дал среднее улучшение в 23.5 балла по сравнению с базовой моделью без навыков. Малые модели, такие как GPT-5.4-nano, почти удвоили или утроили свои результаты.
Эти результаты важны для бизнеса. Модели без навыков часто ошибаются в форматировании или неправильно используют инструменты. SkillOpt улучшает надежность извлечения данных из документов, автоматизацию платежей и соблюдение нормативов. Главное улучшение — это надежность: точное форматирование, самопроверка и проверяемые результаты.
Ценность SkillOpt для компаний — в его переносимости и эффективности. Фреймворк работает независимо от среды выполнения. Навык, обученный в одной среде (например, Codex), может быть развернут в другой (Claude Code) с заметным приростом производительности. Навыки также хорошо переносятся между моделями разного масштаба. Оптимизированный навык для GPT-5.4 успешно работал на меньших GPT-5.4-mini и GPT-5.4-nano. Финальные навыки занимают мало токенов, обычно около 920, максимум 2000. Это делает их легко читаемыми и управляемыми.
Внедрение SkillOpt требует понимания его особенностей. Обучение для академических тестов может использовать до 210 миллионов токенов. Однако для повседневных задач в бизнесе затраты намного ниже. Основная работа — это создание верификатора и репрезентативного валидационного набора. Стоимость оптимизации одного навыка для одной задачи составляет $1–5. Это разовая плата. Фреймворк требует десятков примеров и измеримого сигнала обратной связи. Он не подходит для открытых или субъективных задач без автоматической оценки. SkillOpt хорошо интегрируется с существующими системами оркестрации, например, с DSPy.
Разработчики уже планируют использовать SkillOpt для периодической оптимизации своих агентов. Это создаст экосистему самооптимизирующихся плагинов. Ифан Ян считает, что навыки — это самый быстрый и дешевый шаг к тому, чтобы ИИ-агенты сами оптимизировали свое поведение.