DeepSeek представила DSpark: ускорение LLM до 85%

Китайская компания DeepSeek открыла исходный код DSpark — нового фреймворка, способного ускорить инференс больших языковых моделей (LLM) до 85%.

Логотип DeepSeek и визуализация ускорения больших языковых моделей с помощью DSpark

Китайская компания DeepSeek, известная своими открытыми разработками в сфере ИИ, недавно представила систему DSpark. Эта новая технология, выпущенная под лицензией MIT, призвана значительно ускорить работу больших языковых моделей (LLM), не меняя при этом их конечный результат. DSpark может изменить подход к разработке ИИ во всем мире.

Суть DSpark в том, что она позволяет LLM отвечать быстрее. Представьте, что обычный чат-бот пишет текст по одному слову. DSpark же использует «разведчика», который предсказывает несколько следующих слов, а основная модель быстро проверяет эти предположения. Если предсказания верны, модель движется быстрее. Если нет, DSpark не тратит время на их проверку.

DeepSeek опубликовала DSpark вместе с технической документацией, контрольными точками модели и DeepSpec — кодовой базой для обучения и оценки систем спекулятивного декодирования. Все материалы доступны на GitHub и Hugging Face под свободной лицензией MIT. Это делает новую технологию широко применимой для разработчиков, исследователей и коммерческих компаний.

Система решает одну из самых дорогих проблем в развертывании ИИ: как быстро обслуживать большие модели для реальных пользователей, эффективно используя оборудование. Это важно для потребительских чат-ботов, помощников по кодированию и корпоративных ИИ-систем, где пользователи ожидают быстрой потоковой передачи длинных ответов.

DeepSeek уже применила DSpark к своим моделям DeepSeek-V4. Например, DeepSeek-V4-Flash (284 миллиарда параметров) и DeepSeek-V4-Pro (1,6 триллиона параметров) получили значительный прирост скорости. При этом DSpark не ограничивается моделями DeepSeek-V4. Тесты компании показали, что она работает и с другими открытыми моделями, такими как Qwen от Alibaba и Gemma от Google. Это значит, что корпоративные команды могут обучать или донастраивать черновики в стиле DSpark для своих моделей.

В реальных тестах DeepSeek DSpark увеличила общую пропускную способность для DeepSeek-V4-Flash на 51%, а для DeepSeek-V4-Pro — на 52%. Скорость генерации для отдельных пользователей выросла на 60–85% для V4-Flash и на 57–78% для V4-Pro по сравнению с предыдущей базовой линией MTP-1. В условиях высокой нагрузки прирост пропускной способности достигал 661% и 406% соответственно, так как DSpark лучше справляется с пиковыми нагрузками.

Спекулятивное декодирование — это метод, который позволяет ускорить генерацию текста LLM. Вместо того чтобы модель генерировала каждое слово по очереди, небольшая черновая модель предлагает несколько следующих слов. Затем большая модель проверяет эти предложения параллельно. Если черновик угадал правильно, система пропускает несколько слов сразу. Если нет, она исправляет ошибку и пробует снова. Цель — ускорить процесс, сохраняя при этом исходный результат основной модели.

DSpark улучшает спекулятивное декодирование двумя способами. Во-первых, она использует полуавторегрессивную генерацию. Это значит, что DSpark сочетает скорость параллельного создания черновиков с учетом последовательности слов, чтобы предсказания были более связными. Во-вторых, DSpark добавляет проверку с учетом уверенности. Система оценивает, какая часть черновика, скорее всего, будет принята, и аппаратный планировщик регулирует объем проверки в зависимости от уверенности модели и текущей нагрузки. Это позволяет системе проверять больше черновиков при низкой нагрузке и экономить ресурсы при высокой.

Офлайн-тесты DSpark на моделях Qwen3 (4B, 8B, 14B) и Gemma4-12B показали улучшение средней длины принятых токенов. По сравнению с Eagle3, DSpark увеличила этот показатель на 30,9%, 26,7% и 30,0% для разных версий Qwen3. Относительно DFlash прирост составил 16,3%, 18,4% и 18,3%. Эти результаты подтверждают, что DSpark работает не только с собственными моделями DeepSeek.

Для компаний, использующих открытые модели, DSpark предлагает возможность обучать или донастраивать черновики под свои нужды. Однако это не просто установка плагина. Спекулятивное декодирование требует согласования между черновой и целевой моделями. Для проприетарных моделей внедрение DSpark возможно только при полном контроле над весами модели и стеком обслуживания. Это подчеркивает важность открытой или самостоятельно размещаемой инфраструктуры ИИ для продвинутых команд.

DeepSpec предоставляет разработчикам конкретный путь для обучения и оценки черновиков спекулятивного декодирования. Он включает этапы подготовки данных, обучения и оценки, а также выпущенные контрольные точки для нескольких семейств открытых моделей. Это полезно для исследователей и команд, изучающих ускорение декодирования. Однако для работы с DeepSpec требуются значительные ресурсы, например, 38 ТБ хранилища и 8 графических процессоров.

Ранние тесты сообщества подтверждают эффективность DSpark. Разработчик Рафаэль Карисио сообщил, что DSpark увеличивает скорость генерации токенов примерно в 1,5 раза по сравнению с MTP-1 и в 2,3 раза по сравнению с отсутствием спекулятивного декодирования. Он также отметил, что производительность может снижаться в многоэтапных сеансах кодирования, когда качество принятия черновиков падает. Это показывает, что DSpark не волшебство, но ее преимущества подтверждаются практикой.

DSpark демонстрирует, что значительный прирост производительности ИИ можно получить на уровне инференса, даже без изменения архитектуры самой модели. Эффективность декодирования становится ключевым фактором конкуренции. Более быстрая генерация означает меньшую задержку для пользователей, большую пропускную способность для провайдеров и лучшую экономику для команд, работающих с открытыми моделями в масштабе. Главное новшество DSpark — это не просто создание большего количества черновиков, а более избирательный подход к проверке спекулятивной работы.