Несколько дней назад французский ИИ-стартап Mistral объявил о запуске новой ИИ-модели для распознавания и транскрибации речи. Она имеет открытый исходный код и направлена на использование в деловых целях.
- Стартап описывает инструмент, как первую модель подобного назначения с открытым исходным кодом, способную обеспечивать «по-настоящему качественное распознавание речи».
- В основе инструмента лежит большая языковая модель Mistral Small 3.1. За счет этого контекстное окно Voxtral составляет 32 тысячи токенов, она может распознавать до 40 минут аудиозаписи, и транскрибировать до 30 минут. Помимо этого, модель умеет отвечать на вопросы пользователей по информации из аудио, составлять краткий пересказ, распознавать в записи голосовые команды и совершать на их основе действия (например, запустить какую-либо программу или активировать указанную функцию).
- Voxtral – мультилингвальный транскрибатор, на данный момент он поддерживает более 8 языков.
- Инструмент выпущен в двух вариантах. Первый – Voxtral Small, имеет 24 миллиарда параметров, предназначен для использования в коммерческих целях и конкурирует с моделями от Google, OpenAI и ElevenLabs. Второй – Voxtral Mini, имеет 3 миллиарда параметров и подойдёт для более локального использования. У мини-варианта есть ещё более упрощенная версия Mini Transcribe с ограниченным функционалом только для транскрибации.
- По информации из блога стартапа, полноразмерная версия модели обогнала по основным бенчмаркам конкурентные транскрибаторы GPT-4o mini Transcribe и Gemini 2.5 Flash.
- Компания открывает доступ к моделям по лицензии Apache 2.0, позволяющей использовать их в своих целях с указанием авторства оригинала.
Источник: TechCrunch