Лаборатория DeepMind представила ИИ-модель нового поколения RT-2 для обучения роботов. Сама модель обучается на информации из интернета, преобразовывая визуальные и языковые данные в инструкции для управления роботами.
Обучение роботов даже самым простым действиям — очень сложная задача. Чтобы запрограммировать роботов на такие легкие действия, как наклоны, повороты, поднятия или сортировка вещей (что люди выполняют на автомате), необходимы специальные системы со структурированными обучающими данными.
Одной из команд, занимающихся развёртыванием таких систем, является DeepMind, принадлежащая Google.
В прошлом году компания представила первую версию ИИ-модели Robotics Transformer — RT-1. Она помогала обучать роботов захватывать и перемещать объекты, а также открывать ящики. Система была основана на базе данных из 130 000 демонстраций действий. По заявлению команды, с использованием модели роботы научились выполнению более 700 задач с 97% успешностью.
На днях компания объявила о выходе следующей версии модели, RT-2. Как объясняет глава отдела робототехники DeepMind Винсент Ванхоук, она позволяет роботам эффективно «использовать знания», полученные на относительно небольших наборах данных, в различных рабочих сценариях.
Модель основана на принципе VLA — Vision-Language-Action (видение, язык, действие). По словам Ванхоука, RT-2 демонстрирует улучшенные возможности обобщения, а также семантическое и визуальное понимание за пределами данных, с которыми она до этого работала: например, возможность интерпретации новых команд и реагирование на команды пользователя путем выполнения элементарных рассуждений о категориях объектов или их описаниях. В частности, система эффективно демонстрирует способность определять наиболее подходящий инструмент для выполнения конкретной новой задачи на основе существующей контекстной информации.
В качестве демонстрации функционирования системы Ванхоук привел сценарий, в котором роботу дают задачу выбросить мусор. При использовании многих других моделей, пользователю нужно сначала научить робота определять, что считается мусором, затем обучить его собирать мусор, и только потом — как его выбрасывать. Такое обучение требует включения мельчайших деталей, которые сложно масштабировать — особенно в случае систем, от которых ожидается выполнение множества различных мелких задач.
В случае модели RT-2, знания передаются из большого массива веб-данных, благодаря чему робот сразу получает представление о том, что такое мусор, и может идентифицировать его без специального обучения. Кроме того, он понимает, как выбрасывать мусор, хотя до этого никогда не обучался подобному действию. Система также помогает роботам распознавать разные виды мусора — например, различать бытовые отходы (упаковки, пакеты) от естественных (кожура, остатки пищи) : это возможно благодаря обучению на визуальных данных.
По информации от компании, уровень эффективности роботов при выполнении задач после перехода от RT-1 к RT-2 улучшился с 32% до 62%.
Источник: TechCrunch