Модель уже доступна в публичной предварительной версии через Gemini API в Google AI Studio и Vertex AI. Gemini 2.5 Computer Use основана на возможностях визуального восприятия и логического анализа модели Gemini 2.5 Pro. Она способна выполнять широкий спектр действий в браузере — нажимать кнопки, вводить текст, прокручивать страницы, наводить курсор, открывать выпадающие меню и переходить по ссылкам.
По словам Google, новая модель превосходит конкурирующие решения в тестах Online-Mind2Web, WebVoyager и AndroidWorld, при этом обеспечивая меньшую задержку отклика.

В отличие от традиционных ИИ-моделей, которые работают через API, Gemini 2.5 Computer Use анализирует скриншоты веб-интерфейсов и на их основе генерирует конкретные действия в пользовательском интерфейсе. Агент получает задачу в виде текстового запроса, снимок экрана и историю последних действий. После анализа интерфейса он выбирает подходящее действие — например, клик по кнопке или ввод текста в поле. Действие выполняется на стороне клиента, затем создаётся новый скриншот, и процесс продолжается циклически.
На демонстрации Google показала, как агент сортирует стикеры на цифровой доске и переносит данные о питомцах с одного сайта в CRM-систему. Видеопримеры были ускорены, чтобы показать процесс в реальном времени.
На данный момент модель поддерживает 13 типов действий и оптимизирована для работы в браузере. Поддержка задач на уровне настольных операционных систем пока не реализована, однако модель уже показывает хорошие результаты на мобильных тестах.

Для предотвращения злоупотреблений Google внедрила многоуровневую систему безопасности: каждое действие, предложенное моделью, проходит проверку службой безопасности перед выполнением. Разработчики могут ограничивать определённые действия или запрашивать подтверждение пользователя для операций повышенного риска, например финансовых транзакций.
Несколько внутренних команд Google уже используют модель в реальных проектах — для тестирования интерфейсов и автоматизации рабочих процессов в таких продуктах, как Search и Firebase. Внешние разработчики, получившие ранний доступ, применяют Gemini 2.5 Computer Use для создания инструментов автоматизации рабочих процессов и интеллектуальных помощников.
Источник: gizmochina
-1.png)


