Корпорация Apple раскрыла первые подробности о своей новой ИИ-модели ReALM, которая разрабатывается специально для взаимодействия с пользователями через ассистент Siri. Разработчики компании опубликовали отчёт с описанием некоторых характеристик новинки, которая, как ожидается, может превзойти GPT-4.
- В марте этого года Apple сообщила, что разрабатывает семейство новых мультимодальных языковых моделей MM1, чей функционал находится на уровне GPT-4V от OpenAI и Gemini от Google – ожидается, что оно будет выпущено этим летом. Теперь же корпорация объявила о работе над инновационной ИИ-моделью ReALM: она может распознавать, что происходит на экране пользователя, и мгновенно реагировать на команды.
- Как следует из отчёта, особенность ReALM заключается именно в её способности связывать информацию на экране и голосовой запрос через ассистент Siri. Разработчики указывают, что модель не только умеет понимать команды в контексте происходящего на экране, но и превосходит GPT-4 по результатам тестов на показатели производительности.
- Основная задача инструмента – обеспечить пользователю интуитивно понятный интерфейс для быстрого и лёгкого управления смартфоном с помощью голосовых команд. Например, если открыть на смартфоне сайт какой-либо компании и попросить при этом Siri совершить звонок, ReALM сможет «увидеть» указанный на сайте номер и позвонить по нему.
- ReALM также отличается инновационным подходом к обработке визуальной информации: она преобразует все контекстные данные, включая визуальные элементы на экране, в текст. Благодаря этому модель можно будет использовать и на устройствах с ограниченной вычислительной мощностью.
- В документе разработчики подробно описывают тесты, по результатам которых ReALM превзошла менее мощные модели аналогичного назначения. Например, по их словам, модель справилась лучше GPT-4 в некоторых задачах, связанных с распознаванием информации на экране – при том, что у GPT-4 был доступ к скриншотам, а ReALM полагалась исключительно на расшифровку текста. Также новинка превзошла GPT-4 в точности выполнения задач, «улавливая нюансы» в запросах пользователей.
- При этом создатели инструмента отмечают, что модель может «не улавливать каждую деталь сложных команд, требующих понимания пространственных отношений».
Сможет ли ReALM в будущем составить по-настоящему серьезную конкуренцию GPT-4, или просто станет новым инструментом для голосового управления девайсами – покажет время. На данный момент неизвестно, когда будет выпущена новая модель, но ожидается, что новые подробности о продвижении в её разработке будут озвучены на Всемирной конференции разработчиков Apple в июне 2024.