Cohere выпустила открытый ИИ-агент для кода на одном H100

Cohere открыла код North Mini Code — ИИ-агента для написания кода, работающего на одной H100. Он генерирует втрое больше токенов, чем аналоги.

Изображение чипа Nvidia H100 и абстрактный код, символизирующий работу ИИ-агента Cohere North Mini Code.

Компания Cohere представила North Mini Code, новую открытую модель искусственного интеллекта, предназначенную для автоматизированной разработки кода. Запуск состоялся 10 июня 2026 года в 00:41 по московскому времени. Эта модель позиционируется как альтернатива управляемым решениям, таким как Claude Fable 5, и способна работать на одной видеокарте H100.

North Mini Code — это модель с 30 миллиардами параметров, использующая архитектуру Mixture-of-Experts (MoE), где активно 3 миллиарда параметров на каждый токен. Она поддерживает контекстное окно в 256 000 токенов и может генерировать до 64 000 токенов. Модель доступна на Hugging Face по лицензии Apache 2.0. Однако, независимые тесты показали, что она генерирует в три раза больше выходных токенов по сравнению с аналогичными моделями, что может увеличить затраты на инференс при высоких нагрузках.

Возможности North Mini Code:

  • Разработка ПО: Модель создана специально для автоматизированной разработки, а не адаптирована из универсальных решений. Она включает встроенные возможности использования инструментов и поддерживает прерывистое мышление для многоэтапных задач.
  • Картирование архитектуры и ревью кода: North Mini Code анализирует архитектуру систем, выявляет зависимости и проводит ревью больших кодовых баз. Благодаря значительному контекстному окну, модель способна обрабатывать крупные многофайловые проекты за один проход.
  • Терминальные задачи: Модель обучена для работы в терминальных средах, включая взаимодействие с оболочкой, скриптами пакетов и инструментами командной строки. Её производительность оценивалась на Terminal-Bench v2, который тестирует агентов в реальных терминальных условиях.

North Mini Code — это разреженная модель Mixture-of-Experts со 128 экспертами, из которых 8 активируются на токен. Требования к вычислениям во время инференса сопоставимы с моделью на 3 миллиарда параметров, несмотря на общие 30 миллиардов. Сооснователь Cohere Ник Фрост продемонстрировал её работу на Mac Studio с 20 ГБ оперативной памяти. Модель обучалась в два этапа: контролируемая донастройка, затем обучение с подкреплением на основе более чем 70 000 проверяемых задач из примерно 5 000 репозиториев.

North Mini Code выходит на рынок, где уже присутствуют Mistral Devstral Small 2, GitHub Copilot, Cursor и Claude Fable 5. Cohere заявляет, что их модель обеспечивает в 2,8 раза большую пропускную способность и на 30% меньшую задержку между токенами по сравнению с Mistral Devstral Small 2 в собственных тестах. По данным Artificial Analysis, North Mini Code занимает 8-е место среди 127 аналогичных моделей по скорости вывода (210 токенов в секунду) и 18-е место по индексу интеллекта. Однако, для выполнения задач Intelligence Index модель сгенерировала 75 миллионов выходных токенов, тогда как средний показатель составляет 25 миллионов, что указывает на высокую многословность.

Что это значит для компаний:

  • Целенаправленное обучение для агентов: Теперь это важный критерий оценки. Модели должны быть обучены на проверяемых агентных задачах, а не просто донастроены из универсальных решений.
  • Многословность как скрытая стоимость: Высокая генерация токенов увеличивает затраты на инференс и задержку. Тестирование пропускной способности с реальной рабочей нагрузкой становится ключевым этапом оценки.
  • Выбор между ценой и архитектурой: Claude Fable 5 с ценой $50 за миллион выходных токенов и North Mini Code, работающая на одной H100, предлагают разные подходы. Команды должны оценить оба варианта с учётом своих рабочих нагрузок, чтобы выбрать между контролем затрат/резидентностью данных и управляемой инфраструктурой.