JetBrains выпустила ИИ-модель для генерации фрагментов кода

Компания JetBrains, создающая инструменты для программирования и разработки приложений, сообщила о публичном релизе своей первой ИИ-модели для генерации кода.

  • Новинка получила название Mellum. Модель была выпущена в прошлом году как составная часть нескольких пакетов инструментов для разработки программного обеспечения; теперь компания открыла к ней публичный доступ на платформе Hugging Face, а также сделала открытым её исходный код.
  • Инструмент предназначен для автодополнения кода – он умеет дописывать незавершенные фрагменты кода на основе контекста. Модель обучалась нескольким языкам программирования на ~4,2 триллионах токенов, и имеет 4 миллиарда параметров и контекстное окно в размере 8192 токенов. В данном случае, параметры – это количество навыков решения задач у модели, а токены – это необработанные биты данных, которые модель может брать в обработку. Миллион токенов эквивалентен ~30 000 строк кода.
  • В числе обучающих данных компания использовала лицензированные фрагменты кодов из GitHub и статьи из английской версии Википедии. Обучение длилось около 20 дней на кластере из 256 графических процессоров H200 Nvidia.
  • Как указывает компания в техническом отчёте, Mellum предназначена для интеграции в профессиональные инструменты для разработки, помощи по написанию кода на основе ИИ и исследований в области изучения и генерации кода, а также может использоваться в образовательных приложениях и экспериментах по настройке языковых моделей.
  • Для запуска базовой версии модели требуется дополнительная настройка в зависимости от устройства развёртывания или целей использования. Основная версия настроена под генерацию кода на Python, в ближайшем будущем компания обещает выпустить модели, обученные нескольким другим языкам программирования.
  • JetBrains отмечает, что инструмент не доведен до идеала и может совершать некоторые ошибки – в частности, в сгенерированных фрагментах кода могут быть уязвимости, поэтому их необходимо перепроверять вручную.
  • Модель защищена лицензией Apache 2.0 – то есть может быть использована для создания других конечных продуктов с указанием исходного авторства оригинала и всех внесённых в него изменений.

Источник: TechCrunch