Стартап WellSaid Labs, занимающийся синтезом речи, привлек $10 млн

Стартап WellSaid Labs занимается разработкой инструмента, с помощью которого можно создавать синтезированную речь, максимально приближенную по звучанию к реальной. 7 июля компания объявила о привлечении 10 миллионов долларов в ходе раунда финансирования серии А.

Раунд возглавила венчурная фирма FUSE при участии инвестиционных фондов Voyager, Qualcomm Ventures LLC и GoodFriends. Основными причинами вклада в проект инвесторы назвали высокое качество продукта и быстрый рост уровня его популярности.

Стартап был создан в 2019 году на основе бизнес-инкубатора в институте AI Allen в Сиэтле. Его основатели ставили перед собой цель преобразовывать текст в синтезированную речь для бизнес-целей вроде озвучивания обучающего или рекламного контента — и чтобы эта речь звучала живо и реалистично, а не роботизированно.

Компании удалось этого достичь, создав инструмент на речевом движке Tacotron, разработанном Google. Спустя некоторое время стартап разработал свой собственный, более эффективный движок — благодаря ему голоса стали звучать ещё реалистичнее, а также увеличилась продолжительность записи. Многие аналогичные инструменты начинают «сбиваться» после преобразования пары-тройки предложений подряд, но инструмент WellSaid может читать без запинки длинные рассказы. Сейчас фирменный механизм стартапа может считывать текст без остановки на протяжении нескольких часов.

Кроме того, инструменты WellSaid Labs способны считывать речь быстрее, чем это умеют делать люди — при том, что аналогичные инструменты обычно преобразовывают речь в десять раз медленнее реальной скорости. Так, для создания трех минут синтезированной речи с помощью механизма стартапа требуется одна минута преобразования, а с помощью движка Tacotron — около тридцати минут.

Система позволяет создавать новые «Голосовые аватары» специально под запросы клиента — например, чтобы речь считывалась голосом представителя компании-заказчика или актера озвучивания. Первоначально для создания новой голосовой модели требовалось 20-часовое аудио с записью конкретного голоса; сейчас же на это требуется 2-часовая запись. Записанные с помощью технологии сэмплы можно прослушать на специальном разделе сайта.

На данный момент компания строго ориентирована на бизнес-среду — её услуги не доступны для обычных индивидуальных пользователей. При этом, по словам генерального директора стартапа Мэтта Хокинга, преобразование текста в речь может оказать огромную помощь в коммуникации людям с ограниченными возможностями — и команда сейчас находится в поиске решения для открытия доступа к своей технологии таким людям.