GLM 5.1: новый открытый LLM от Zhupai AI превзошёл GPT

7 апреля 2026 г.

Китайский стартап Zhupai AI выпустил GLM-5.1 — открытую большую языковую модель. Она показала превосходство над Opus 4.6 и GPT 5.4 в тестах SWE-Bench Pro.

Логотип GLM 5.1 или Zhupai AI на фоне нейросети или схемы

Китайский стартап Z.ai, известный как Zhupai AI, представил новую модель искусственного интеллекта GLM-5.1. Она выпущена под открытой лицензией MIT, что позволяет компаниям свободно использовать и адаптировать её для коммерческих целей. Модель доступна на платформе Hugging Face и способна автономно работать до восьми часов над одной задачей. Это событие указывает на переход к агентному инжинирингу в развитии ИИ.

GLM-5.1 — это модель Mixture-of-Experts с 754 миллиардами параметров. Она оптимизирована для длительной продуктивной работы, а не только для увеличения количества токенов рассуждений. Модель сохраняет заданную цель на протяжении тысяч вызовов инструментов. По словам лидера Z.ai, GLM-5.1 выполняет до 1700 шагов автономно, тогда как предыдущие модели делали около 20. Компания Z.ai, вышедшая на Гонконгскую фондовую биржу в начале 2026 года с капитализацией $52.83 миллиарда, стремится укрепить свои позиции как ведущий независимый разработчик больших языковых моделей в регионе.

Основное технологическое достижение GLM-5.1 — это способность избегать эффекта плато, характерного для предыдущих моделей. Традиционные агентные системы быстро достигали начальных улучшений, а затем останавливались. Z.ai утверждает, что GLM-5.1 работает по «лестничному» принципу: периоды постепенной настройки чередуются со структурными изменениями, которые значительно улучшают производительность.

В одном из тестов модель оптимизировала высокопроизводительную векторную базу данных (VectorDBBench). GLM-5.1 получила заготовку кода на Rust и использовала агентные вызовы для редактирования, компиляции, тестирования и профилирования. Если Claude Opus 4.6 достигал 3547 запросов в секунду, то GLM-5.1 после 655 итераций и более 6000 вызовов инструментов показала 21 500 запросов в секунду. Это примерно в шесть раз лучше предыдущего рекорда.

Модель не просто улучшала параметры, а меняла стратегию. На 90-й итерации она перешла на кластерное зондирование IVF с f16-сжатием векторов, что увеличило скорость до 6400 запросов в секунду. На 240-й итерации она внедрила двухэтапный конвейер, достигнув 13 400 запросов в секунду. GLM-5.1 самостоятельно устранила шесть структурных узких мест, демонстрируя, как модель может работать как собственный отдел исследований и разработок.

GLM-5.1 также улучшила выполнение кода, снизив накладные расходы на планирование и повысив локальность кэша. Модель самостоятельно переработала параллелизм и корректировала параметры, когда точность падала ниже 95%. Такой уровень автономной коррекции отличает её от систем, которые только генерируют код без проверки в реальной среде.

Выносливость модели проверили в KernelBench Level 3, где требовалась сквозная оптимизация архитектур машинного обучения, таких как MobileNet и Mamba. Цель — создать более быстрый GPU-кернел, чем эталонная реализация PyTorch, при сохранении идентичных результатов. GLM-5.1 показала устойчивые улучшения, достигнув 3.6-кратного ускорения по сравнению с 2.6-кратным у GLM-5.

Хотя Claude Opus 4.6 остаётся лидером в этом тесте с 4.2-кратным ускорением, GLM-5.1 значительно расширила продуктивный горизонт для открытых моделей. Это не просто увеличенное контекстное окно, а способность поддерживать цель, снижать дрейф стратегии и накапливание ошибок. Модель самостоятельно запускает бенчмарки, находит узкие места и корректирует стратегии.

GLM-5.1 позиционируется как инструмент для инженеров, а не как чат-бот для потребителей. Z.ai интегрировала модель в экосистему «Coding Plan», которая предлагает три уровня подписки. Все тарифы включают бесплатные инструменты Model Context Protocol для анализа изображений, веб-поиска и чтения документов.

Тариф Lite стоит $27 в квартал, предлагая втрое больше использования, чем аналогичный Claude Pro. Pro-версия за $81 в квартал обеспечивает в пять раз больше ресурсов, чем Lite, и работает на 40-60% быстрее. Максимальный тариф за $216 в квартал предназначен для разработчиков с высокими потребностями и гарантирует производительность в пиковые часы.

При использовании API напрямую или через платформы, такие как OpenRouter, GLM-5.1 стоит $1.40 за миллион входных токенов и $4.40 за миллион выходных. Есть скидка на кэш — $0.26 за миллион входных токенов. В пиковые часы (с 14:00 до 18:00 по пекинскому времени) модель потребляет квоту в три раза быстрее, но до апреля 2026 года действует акция с обычной тарификацией в непиковые часы.

GLM-5 Turbo, выпущенная ранее, остаётся проприетарной и оптимизирована для быстрого вывода и автоматизации. Её стоимость — $1.20 за миллион входных и $4 за миллион выходных токенов. Модель GLM-5.1 также можно развернуть локально, она поддерживает фреймворки vLLM, SGLang и xLLM. Инструкции доступны на GitHub. Для корпоративных команд есть возможность получить пошаговое внутреннее рассуждение модели через параметр «thinking» в API-запросах.

Сравнение стоимости API за миллион токенов (вход/выход/общая):

Grok 4.1 Fast: $0.20 / $0.50 / $0.70 (xAI)
MiniMax M2.7: $0.30 / $1.20 / $1.50 (MiniMax)
Gemini 3 Flash: $0.50 / $3.00 / $3.50 (Google)
Kimi-K2.5: $0.60 / $3.00 / $3.60 (Moonshot)
MiMo-V2-Pro (≤256K): $1.00 / $3.00 / $4.00 (Xiaomi MiMo)
GLM-5: $1.00 / $3.20 / $4.20 (Z.ai)
GLM-5-Turbo: $1.20 / $4.00 / $5.20 (Z.ai)
GLM-5.1: $1.40 / $4.40 / $5.80 (Z.ai)
Claude Haiku 4.5: $1.00 / $5.00 / $6.00 (Anthropic)
Qwen3-Max: $1.20 / $6.00 / $7.20 (Alibaba Cloud)
Gemini 3 Pro: $2.00 / $12.00 / $14.00 (Google)
GPT-5.2: $1.75 / $14.00 / $15.75 (OpenAI)
GPT-5.4: $2.50 / $15.00 / $17.50 (OpenAI)
Claude Sonnet 4.5: $3.00 / $15.00 / $18.00 (Anthropic)
Claude Opus 4.6: $5.00 / $25.00 / $30.00 (Anthropic)
GPT-5.4 Pro: $30.00 / $180.00 / $210.00 (OpenAI)

Данные о производительности GLM-5.1 показывают, что модель опередила ряд известных западных аналогов в задачах кодирования и инженерии. На SWE-Bench Pro, который оценивает способность решать реальные проблемы GitHub, GLM-5.1 набрала 58.4 балла. Это выше, чем у GPT-5.4 (57.7), Claude Opus 4.6 (57.3) и Gemini 3.1 Pro (54.2).

Модель также показала высокие результаты в других тестах: 63.5 на Terminal-Bench 2.0, 68.7 на CyberGym (почти на 20 пунктов больше, чем у GLM-5), 71.8 на MCP-Atlas и 70.6 на T3-Bench. В области рассуждений GLM-5.1 набрала 31.0 на Humanitys Last Exam (52.3 с внешними инструментами), 95.3 на математическом конкурсе AIME 2026 и 86.2 на GPQA-Diamond.

Один из впечатляющих примеров — тест Scenario 3, где модель за восемь часов самостоятельно создала десктопную среду в стиле Linux. В отличие от предыдущих моделей, которые могли сделать лишь базовую панель задач, GLM-5.1 автономно реализовала файловый менеджер, терминал, текстовый редактор, системный монитор и даже функциональные игры. Она итеративно дорабатывала стиль и логику взаимодействия, создав полноценное веб-приложение.

Лицензирование двух моделей Z.ai отражает текущее состояние мирового рынка ИИ. GLM-5.1 выпущена под лицензией MIT, её веса доступны на Hugging Face и ModelScope. Это соответствует стратегии Z.ai по использованию открытого исходного кода для привлечения разработчиков.

Однако GLM-5 Turbo остаётся проприетарной и закрытой. Этот подход становится всё более распространённым: компании выпускают открытые модели для широкого распространения, но сохраняют оптимизированные для выполнения варианты за платной подпиской. Z.ai, как и другие крупные игроки, например Alibaba, разделяет свои разработки. Основная интеллектуальная часть остаётся открытой, а высокоскоростная инфраструктура приносит доход.

Z.ai не обещает открыть исходный код GLM-5 Turbo, но заявляет, что полученные результаты будут учтены в будущих открытых релизах. Такая сегментированная стратегия помогает стимулировать внедрение и строить устойчивую бизнес-модель.

Сообщество разработчиков положительно отреагировало на выпуск GLM-5.1, особенно отмечая её надёжность в производственных условиях. Пользователи доверяют автономности модели. Один из разработчиков заявил, что GLM-5.1 «шокировала» его своей эффективностью, требуя меньше доработок промптов, чем другие модели.

Другой пользователь отметил, что общий рабочий процесс модели, от планирования до выполнения проекта, работает отлично, позволяя уверенно поручать ей сложные задачи. Например, задача, которая обычно занимала неделю (предварительная обработка кода, выбор признаков, настройка гиперпараметров), была выполнена за два дня. Разработчики теперь могут больше сосредоточиться на основной работе, не беспокоясь о нехватке ресурсов.

Анонс в социальных сетях набрал более 46 000 просмотров за первый час, привлекая внимание заявлением о восьми часах автономной работы. Ранние пользователи считают, что Z.ai успешно преодолела эпоху «галлюцинаций» ИИ, создав модель, которая может оптимизировать себя через итерации. Возможность быстро создавать четыре приложения с помощью правильных промптов и структурированного планирования названа революционной для индивидуальных разработчиков.

Выпуск GLM-5.1 указывает, что следующая граница конкуренции в ИИ — это не скорость обработки токенов, а продолжительность автономной работы. Модель, способная работать восемь часов без вмешательства человека, кардинально меняет цикл разработки программного обеспечения.

Z.ai признаёт, что это только начало. Остаются задачи, такие как надёжная самооценка для задач без числовых метрик, выход из локальных оптимумов и поддержание согласованности на протяжении тысяч вызовов инструментов. Z.ai показала, что модель может не просто отвечать на вопросы, а завершать целые проекты.

GLM-5.1 совместима с множеством инструментов для разработчиков, включая Claude Code, OpenCode и Droid. Вопрос для разработчиков теперь не «что я могу спросить у этого ИИ?», а «что я могу поручить ему на следующие восемь часов?». Переход к агентному инжинирингу знаменует новую фазу внедрения искусственного интеллекта в мировую экономику.