Британская исследовательская лаборатория DeepMind объявила о выпуске новой нейросети Gato. Разработчики описывают Gato как “систему общего назначения”, которую можно обучить выполнению множества различных типов задач. На данный момент нейросеть обучили 604 видам действий.
В числе прочего, система умеет создавать описания к фотографиям и субтитры к видеозаписям, переписываться в чате, управлять роботизированной рукой и складывать с её помощью кубики, а также играть в игры на приставке Atari.
По словам научных сотрудников лаборатории, идея создания ИИ-системы, способной решать множество задач, не является инновационной. Однако большинство современных систем всё же направлены на работу над какой-то одной конкретной задачей или несколькими задачами из одной узкой сферы. Gato отличается от этих систем широким разнообразием решаемых задач, а также методов обучения.
Gato обучалась на множестве примеров: нейросеть запоминала миллиарды слов, реальных и смоделированных изображений, нажатий кнопок и движений в виде текстовых токенов. Токены представляли данные в доступном для системы виде — например, с их помощью ИИ мог определить принцип действий в видеоигре или понять, какое сочетание слов в предложении будет грамматически правильным и имеющим смысл.
Система пока не совершенна, и не со всеми задачами справляется идеально. Например, она может периодически давать неверные или обрывистые ответы в диалогах, делать фактические ошибки в описании фотографий, а также промахиваться при складывании кубиков. Тем не менее, по утверждению разработчиков, из 604 задач Gato идеально выполняет около 450, а более половины из них — даже лучше профессионалов.
С точки зрения архитектуры Gato имеет общие характеристики с языковой программной моделью GPT-3 OpenAI. Обе нейросети имеют архитектуру Transformer, которая была разработана в 2017 году и считается предпочтительной для решения сложных задач вроде выполнения математических вычислений, написания музыки и классифицирования объектов.
При этом у Gato значительно меньше параметров — частей системы, определяющих навыки нейросети в выполнении каждой конкретной задачи. У Gato их всего 1,2 миллиарда, в то время как у GPT-3 — более 170 миллиардов. Как объясняют разработчики, низкое число параметров необходимо для того, чтобы система могла управлять роботизированной рукой в режиме реального времени. По их предположению, при увеличении числа параметров Gato смогла бы справиться “практически с любой задачей”.