Количество ИИ-инструментов, способных выполнять разноплановые задачи с текстом, растет с каждым днем. Однако большинство современных языковых моделей являются закрытыми, что лишает сторонних исследователей возможности изучать принципы их работы. Институт AI2 занялся разработкой открытой большой языковой модели с целью создать инструмент для научно-исследовательских работ.
Алленовский институт искусственного интеллекта (AI2) — некоммерческая организация, занимающаяся исследованиями в области машинного обучения. Разрабатываемая им языковая модель получила предварительное простое название Open Language Model (OLMo). Работа над инструментом будет проводиться в сотрудничестве с производителем микросхем AMD и стартапами по обработке данных для тренировки языковых моделей.
По словам старшего директора по исследованиям НЛП в AI2 Ханны Хаджиширзи, исследовательско-технологические сообщества нуждаются в доступе к открытым языковым моделям для продвижения и развития науки, для чего институт и создаёт конкурентоспособную языковую модель.
Безусловно, OLMo будет не первой языковой моделью с открытым исходным кодом — помимо неё уже существуют такие примеры, как Bloom и Llama. AI2 рассматривает OLMo не только как модель, но и как платформу, с которой исследователи смогут брать отдельные разработанные институтом компоненты — либо для использования в своих проектах, либо для попыток улучшения и оптимизации инструмента. По словам Хаджиширзи, вся работа над OLMo будет выложена в открытый доступ, включая публичную демо-версию инструмента, набор обучающих данных и API.
Мы разрабатываем OLMo, чтобы предоставить сообществу исследователей искусственного интеллекта более широкий доступ к работе непосредственно над языковыми моделями. Мы считаем, что широкая доступность всех компонентоа OLMo позволит исследователям изучать и улучшать то, что мы создаём. Наша конечная цель — совместными усилиями создать лучшую модель открытого языка в мире.
Ханна Хаджиширзи
Значимое отличие OLMo от аналогичных больших языковых моделей, по словам разработчиков, заключается в том, чтобы она будет целенаправленно натренирована лучше работать с текстами образовательного формата (учебниками, научными статьями и т. д.), чтобы стать «уникально подходящей» системой для научно-академических инструментов.
Как и в случае со многими инструментами генеративного ИИ, перед AI2 стоит вопрос определения прав на владение контентом, который будет генерироваться с помощью OLMo. Для определения прав интеллектуальной собственности и оценки вопросов конфиденциальности команда института планирует работать с юристами и сторонними экспертами на протяжении всего процесса создания модели.
По словам Хаджиширзи, AI2 также будет использовать все возможные опции для снижения риска использования языковой модели в злоумышленных и вредоносных целях.
Институт планирует потратить на разработку модели около года и выпустить публичную демо-версию в 2024 году. По информации от разработчиков, у OLMo будет около 70 миллиардов параметров. Обучение начнётся в ближайшие месяцы и будет проходить на LUMI — самом мощном современном суперкомпьютере.