Mistral представил новую ИИ-модель для генерации речи
Компания Mistral выпустила новую открытую модель для синтеза речи. Она способна работать даже на смартфонах и умных часах.
Французская ИИ-компания Mistral представила новую модель преобразования текста в речь с открытым исходным кодом. Она получила название Voxtral TTS. Этот инструмент предназначен для голосовых ИИ-ассистентов и корпоративного использования, например, в клиентской поддержке.
Voxtral TTS позволяет компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами. Это ставит Mistral в прямую конкуренцию с такими игроками, как ElevenLabs, Deepgram и OpenAI. Модель поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.
Пьер Сток, вице-президент по научным операциям Mistral AI, отметил, что клиенты давно ждали речевую модель. Компания разработала компактное решение, которое работает на смарт-часах, смартфонах, ноутбуках и других периферийных устройствах. Стоимость модели значительно ниже аналогов на рынке, при этом она предлагает передовую производительность.
Voxtral TTS может адаптировать пользовательский голос по образцу менее пяти секунд. Модель также улавливает тонкие акценты, интонации и особенности речевого потока. Основанная на Ministral 3B, она легко переключается между языками, сохраняя при этом характеристики голоса. Это полезно для дубляжа или перевода в реальном времени. Разработчики стремились, чтобы модель звучала естественно, а не роботизировано.
Модель создана для работы в реальном времени. Время до первого аудио (TTFA) составляет 90 миллисекунд для 10-секундного образца из 500 символов. Фактор реального времени (RTF) равен 6x, что означает, что модель генерирует 10-секундный аудиоклип примерно за 1,6 секунды. Ранее Mistral уже выпускала модели для транскрипции. С новой речевой моделью компания стремится предложить полный набор голосовых продуктов для бизнеса.
Mistral планирует создать сквозную платформу, способную обрабатывать мультимодальные потоки данных, включая аудио, текст и изображения, как на входе, так и на выходе. Основное преимущество этой стратегии — получение большего объема информации благодаря комплексной агентной системе. Открытый исходный код и возможности кастомизации Voxtral TTS должны помочь компаниям внедрять решения Mistral, настраивая их под свои нужды.