Автоматическое распознавание речи остается одним из самых востребованных и при этом сложных направлений в области искусственного интеллекта и машинного обучения. Американская компания OpenAI, известная разработкой крупнейшей на сегодняшний день языковой модели GPT-3, представила новую систему автоматического распознавания речи Whisper. Она способна транскрибировать речь на нескольких языках, а также выполнять перевод речи с этих языков на английский.
По информации, представленной разработчиками, Whisper обучалась на 680 000 часов “многоязычных и многозадачных данных” из Интернета. Тренировка на таком разнообразии данных позволила системе научиться распознавать не только чистую речь, но и с высокой долей точности понимать уникальные акценты, разговоры при фоновом шуме и технические термины. Примерно ⅓ набора аудиоданных была не на английском языке, и перед моделью попеременно ставились задачи расшифровки речи на языке оригинала и перевода на английский.
Компания сделала открытый доступ к исходному коду модели на GitHub, оттуда можно загрузить несколько версий системы. В сопроводительном письме представители OpenAI написали, что в первую очередь Whisper направлена на “исследователей в области ИИ, изучающих надежность, возможности, ошибки и ограничения языковых моделей”, но также может быть полезна для разработчиков различных платформ в качестве решения для интеграции функции автоматического распознавания речи.
На данный момент, по словам разработчиков, система показывает хорошие результаты в транскрибировании и переводе примерно на 10 языках. Также при выставлении дополнительных настроек модель может выполнять такие задачи, как “обнаружение голосовой активности, классификация говорящих или диаризация (разделение аудио на сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему)”, но она ещё не до конца обучена этим функциям и эффективность их выполнения недостаточно оценена.
Разработчики не скрывают, что Whisper имеет свои ограничения — в частности, в области предиктивной расшифровки текста. Так, компания предупреждает, что в расшифрованном системой тексте могут оказываться слова, которые на самом деле не были произнесены — это может происходить из-за того, что модель пыталась одновременно предсказать следующее слово в аудио и при этом расшифровать сам звук. Более того, Whisper не одинаково хорошо работает на всех языках, которым обучена, поскольку количество обучающих данных на разных языках было распределено неравномерно.
Несмотря на наличие этих несовершенств, компания OpenAI считает модель хорошим инструментом для улучшения существующих систем распознавания речи. По словам разработчиков, на основе Whisper можно создавать приложения, которые смогут расшифровывать и переводить речь “практически в режиме реального времени”. Создатели модели также выразили надежду, что разработанная ими технология будет использоваться в полезных целях и в целом сделает автоматическое распознавание речи более доступным.