Ai2 выпустила MolmoWeb: открытый визуальный веб-агент

Ai2 представила MolmoWeb, открытый визуальный веб-агент с 30 000 траекторий человеческих задач и полным стеком обучения. Это открывает новые возможности для разработчиков.

Логотип Ai2 и графическое представление MolmoWeb, демонстрирующее его функционал визуального веб-агента.

Некоммерческая организация Ai2 из Сиэтла представила MolmoWeb. Это новый визуальный веб-агент с открытым весом. Он предлагает разработчикам третий вариант между закрытыми API и открытыми фреймворками без обученных моделей.

MolmoWeb доступен в версиях с 4 и 8 миллиардами параметров. Это первый открытый визуальный веб-агент, который поставляется с данными для обучения и пайплайном. Это позволяет проверять и воспроизводить его работу. Агент работает только со скриншотами браузера, не анализируя HTML или дерево доступности. Он получает инструкцию, текущий скриншот, лог действий и URL. Затем MolmoWeb формирует мысль на естественном языке и выполняет действие: клик, ввод текста, скроллинг, переход по ссылке или переключение вкладок. Модель не зависит от браузера, ей нужен только скриншот.

Ключевое отличие MolmoWeb — это сопровождающий его набор данных MolmoWebMix. Он представляет собой последовательность скриншотов и действий с инструкциями. MolmoWebMix объединяет три компонента.

  • Человеческие демонстрации: 30 000 траекторий задач, записанных людьми через расширение Chrome на более чем 1100 сайтах. Это включает 590 000 отдельных демонстраций подзадач.
  • Синтетические траектории: Дополнительные траектории, созданные с помощью текстовых агентов, работающих с деревом доступности. Важно, что здесь не использовались проприетарные визуальные агенты.
  • Данные восприятия графического интерфейса: Более 2,2 миллиона пар "скриншот-вопрос-ответ" с почти 400 сайтов. Эти данные учат модель читать и анализировать содержимое страниц прямо из изображений.

На рынке браузерных агентов есть две основные категории. Первая — это закрытые API-системы, такие как OpenAI Operator или Google Gemini. Вторая — открытые модели. MolmoWeb относится ко второй категории как полностью обученная визуальная модель. Ai2 сообщает, что MolmoWeb превосходит другие открытые модели в четырех бенчмарках: WebVoyager, Online-Mind2Web, DeepShop и WebTailBench. Он также показывает лучшие результаты, чем старые API-агенты на базе GPT-4o, использующие дерево доступности и скриншоты.

У MolmoWeb есть и ограничения. Модель иногда ошибается при чтении текста со скриншотов. Перетаскивание объектов работает нестабильно. Производительность снижается при неоднозначных инструкциях. Модель не обучалась на задачах, требующих входа в аккаунт или финансовых операций. Для компаний, которые выбирают браузерные агенты, важно иметь возможность проверять их работу, донастраивать под свои процессы и не зависеть от API-вызовов. MolmoWeb предлагает именно это.