В Китае разработали новую большую языковую модель Baichuan-13B

Стартап Baichuan Intelligence, принадлежащий основателю китайской поисковой системы Sogou Вану Сяочуаню, представил большую языковую модель нового поколения Baichuan-13B. На данный момент её разрешено использовать только разработчикам и ученым в коммерческих целях.

В феврале этого года Сяочуань заявил в своем блоге на Weibo, что “Китаю нужна собственная OpenAI”, а чуть позже сказал в интервью, что его стартап находится “на пути к запуску крупномасштабной модели, сравнимой с GPT-3.5”. Три месяца назад он запустил стартап Baichuan, и довольно быстро добился получения финансирования в размере 50 миллионов долларов от группы бизнес-ангелов. Теперь его компания считается одним из самых перспективных разработчиков больших языковых моделей в Китае — в том числе благодаря выдающимся способностям своего создателя в области компьютерных наук.

За три месяца команда Baichuan выросла до 50 человек, а в июне представила демо-версию своей модели — Baichuan-7B с 7 миллиардами параметров.

Версия, выпущенная два дня назад, представляет собой базовую версию под названием Baichuan-13B. На данный момент она доступна бесплатно для ученых и разработчиков, получивших официальное разрешение на ее использование в коммерческих целях. Когда планируется официальный запуск модели для общего использования — неизвестно.

Модель Baichuan-13B основана на архитектуре Transformer, на которой также построен и GPT, и подавляющее количество местных китайских моделей. Она имеет 13 миллиардов параметров (переменных, используемых для генерации и анализа текста) и обучается на китайских и английских данных одновременно. Для её обучения используется 1,4 триллиона токенов — для сравнения, OpenAI заявляла, что ChatGPT-3 обучался на 300 миллиардах токенах.

Исходя из данных на GitHub, модель имеет открытый исходный код.

В последнее время в Китае появляется много местных языковых моделей: в частности, над их разработкой трудятся компания Baidu, принадлежащие университету Цинхуа компании Zhipu.AI и DeepLang.AI, а также исследовательский институт IDEA и другие ИИ-проекты. При этом, по сообщениям некоторых источников, в скором времени Китай может внедрить новые правила, усиливающие контроль за контентом, который генерируют эти модели, а также обязать местные компании получать специальные лицензии на запуск LLM.

Источник: TechCrunch