Британский стартап Speechmatics разрабатывает ИИ-инструмент для преобразования речи в текст. Технология отличается умением распознавать акценты и диалекты, а также понимает людей с нарушениями речи. На днях компания объявила о привлечении 62 миллионов долларов в ходе раунда финансирования серии B. Средства пойдут на дальнейшее развитие продукта.
Возглавила раунд инвестиционная компания Susquehanna Growth Equity из США, также в нём приняли участие британские инвесторы AlbionVC и IQ Capital.
Компания Speechmatics была основана в 2006 году на основе исследований в области ИИ доктора Кембриджского университета Тони Робинсона. До нынешнего раунда компании удалось привлечь общей сложностью около 10 миллионов долларов.
Созданный стартапом продукт на данный момент способен распознавать речь и преобразовывать её в текст на 34 языках, в том числе и на русском. Благодаря новому финансированию, компания планирует обучить инструмент новым языкам, а также расширить возможности технологии — например, научить ИИ воспринимать речь, записанную на фоне сильного шума вроде оживленной автомобильной дороги. Движок уже сейчас умеет распознавать различные акценты упомянутых 34 языков, а также понимает проблемную речь с заиканиями или шепелявостью.
Speechmatics предлагает инструмент в качестве API корпоративным клиентам в формате B2B. За время существования у стартапа набралась клиентская база из примерно 170 компаний — в частности, технология использовалась в проектах по расшифровке аудиозаписей, озвучке навигаторов, автоматическом генерировании субтитров и других задач в связке речь-текст.
По словам генерального директора стартапа Кэти Вигдаль, для обучения инструмента разработчикам пришлось собирать данные в виде миллионов часов аудиозаписей человеческой речи. Конечной целью развития технологии она называет возможность преобразовать речь любого человека.
Первоначально стартап давал доступ к своей технологии только через частный API. Сейчас компания предоставляет разработчикам возможность поработать с технологией через более открытые инструменты API, а также разместить пробную версию инструмента на корпоративных сайтах.
По словам Вигдаль, Speechmatics приходится конкурировать с аналогичными инструментами преобразования речи от крупных компаний и корпораций вроде Amazon, Google и Microsoft. Однако, по её словам, технология стартапа имеет преимущество в распознавании тонкостей речи: в частности, исследование Стэнфордского университета выявило, что при распознавании афроамериканских диалектов и акцентов инструмент Speechmatics показал точность 82,8%, по сравнению с 68,6% у Google и таким же показателем у Amazon. Отчасти именно результаты подобных исследований стали причиной заинтересованности инвесторов в финансировании данной компании.