ИИ-стартап Guide Labs выпустил новую большую языковую модель (LLM) Steerling-8B с открытым исходным кодом, которая отличается высоким уровнем интерпретативности. Это означает, что она обучена на новой архитектуре данных, которая упрощает возможность понимать мотивы тех или иных действий модели: а именно, можно отследить корни каждого токена, сгенерированного моделью, в базе обучающих данных.
- Такой метод может позволить не только лучше понимать логику ИИ-инструментов, но и эффективнее бороться с их несовершенствами: «галлюцинациями», неоправданной лестью или грубостью в сторону пользователей или определённых групп людей, нарушениями этических норм и т.д. В частности, он даёт возможность узнать, из каких источников модель взяла тот или иной факт, и даже выяснить, каким образом инструмент генерирует шутки и формирует своё «чувство юмора».
- CEO стартапа, доктор Джулиус Адебайо, начал работу над новым способом обучения моделей несколько лет назад, став соавтором статьи с критикой существующих методов интерпретации действий ИИ-моделей. В конечном итоге его исследования привели к созданию нового способа построения больших языковых моделей: в архитектуру инструмента встраивается концептуальный слой, который группирует данные в отслеживаемые категории. Для этого требуется более тщательная предварительная аннотация данных, что было реализовано при разработке Steerling-8B с помощью других ИИ-моделей.
- Одна из проблем данного метода заключается в том, что он может лишить LLM-модели способности генерировать информацию на новые темы, которые не упоминались в обучающих данных. По словам Адебайо, исследование поведения Steerling-8B показывает, что это опасение неверное: при изучении поведения этого инструмента выявились так называемые «открытые концепции» – идеи, до которых модель «додумалась» самостоятельно. Например, ими оказались квантовые вычисления.
- По мнению Адебайо, метод интерпретативной архитектуры может быть полезным для разработки и обучения любого типа LLM. В частности, разработчикам моделей общего пользования он может помочь качественнее контролировать соблюдение инструментами законов и ограничений, а создатели моделей для сферы финансов и науки смогут отслеживать и исправлять ошибки моделей в расчётах и вычислениях.
- На данный момент Steerling-8B имеет 8 миллиардов параметров и, по утверждению создателей, обладает 90% возможностей стандартных больших языковых моделей, используя при этом меньше обучающих данных благодаря новой архитектуре. Следующим шагом стартап ставит задачу построить модель более крупного формата, а также создать на её основе API и ИИ-агент.
Источник: TechCrunch

