Google Translate «обучился» 110 дополнительным языкам

В конце прошлой недели корпорация Google анонсировала, что в её сервис перевода добавлена поддержка 110 новых языков. Расширение функционала сервиса стало возможным благодаря большой языковой модели PaLM 2.

В список новых языков вошли, в том числе, абхазский, башкирский, бурятский, осетинский, удмуртский и чеченский. 1/4 часть заняли языки народов Африки – афарский (Эфиопия), нко (Западная Африка), тамазигтский (Марокко), ток-писин (Папуа – Новая Гвинея). Также переводчик научился распознавать некоторые диалекты, в т.ч. кантонский (Китай), мэнский (остров Мэн) и пенджабский (Индия, Пакинстан).

Как следует из утверждения компании, в общей сложности на новых добавленных языках говорят более 614 миллионов человек – то есть около 8% мирового населения.

Разработчики отметили, что данные 110 языков находятся на разных стадиях использования: например, на некоторых из них говорят сотни миллионов человек, а другие уже считаются вымирающими и практически не имеют активных носителей. В последнем случае, поддержка вымирающего языка сервисом перевода может помочь учёным и лингвистам, работающим с древними документами письменности или стремящимся к сохранению этих языков в качестве культурного наследия.

В статье блога Google инженеры-программисты указали, что при добавлении поддержки языка учитываются разновидности его региональных диалектов и различные стандарты правописания. В частности, во многих языках коренных народов нет единой стандартной формы, из-за чего невозможно создать универсальный «правильный» текст без учёта конкретного диалекта. Поэтому, если у языка оказывалось много диалектов, разработчики старались определить, какой из них используется наиболее часто и обширно, а затем тренировали модель создавать текст, наиболее близкий к этому диалекту. Но при этом PaLM 2 частично обучалась и на менее популярных диалектах, из-за чего может генерировать текст с элементами разных разновидностей языка.

Добавление более сотни редких языков в Google Translate является частью инициативы Google Languages Initiative: в ноябре 2022 года компания выпустила статью про возможности ИИ, где пообещала разработать большую языковую модель с поддержкой 1000 языков – с оговоркой, что на это потребуются годы работы. С учётом нового добавления, сейчас переводчик умеет работать с 243 языками.

Источник: TechCrunch