iLenta Меню

Google представила ИИ-модель Gemini 2.5 Computer Use

09 октября 2025, 14:08 | Roter [537]
Google представила новую ИИ-модель под названием Gemini 2.5 Computer Use, которая позволяет агентам взаимодействовать с веб-сайтами и пользовательскими интерфейсами так же, как это делает человек.
Google представила ИИ-модель Gemini 2.5 Computer Use

Модель уже доступна в публичной предварительной версии через Gemini API в Google AI Studio и Vertex AI. Gemini 2.5 Computer Use основана на возможностях визуального восприятия и логического анализа модели Gemini 2.5 Pro. Она способна выполнять широкий спектр действий в браузере — нажимать кнопки, вводить текст, прокручивать страницы, наводить курсор, открывать выпадающие меню и переходить по ссылкам.

По словам Google, новая модель превосходит конкурирующие решения в тестах Online-Mind2Web, WebVoyager и AndroidWorld, при этом обеспечивая меньшую задержку отклика.

В отличие от традиционных ИИ-моделей, которые работают через API, Gemini 2.5 Computer Use анализирует скриншоты веб-интерфейсов и на их основе генерирует конкретные действия в пользовательском интерфейсе. Агент получает задачу в виде текстового запроса, снимок экрана и историю последних действий. После анализа интерфейса он выбирает подходящее действие — например, клик по кнопке или ввод текста в поле. Действие выполняется на стороне клиента, затем создаётся новый скриншот, и процесс продолжается циклически.

На демонстрации Google показала, как агент сортирует стикеры на цифровой доске и переносит данные о питомцах с одного сайта в CRM-систему. Видеопримеры были ускорены, чтобы показать процесс в реальном времени.

На данный момент модель поддерживает 13 типов действий и оптимизирована для работы в браузере. Поддержка задач на уровне настольных операционных систем пока не реализована, однако модель уже показывает хорошие результаты на мобильных тестах.

Для предотвращения злоупотреблений Google внедрила многоуровневую систему безопасности: каждое действие, предложенное моделью, проходит проверку службой безопасности перед выполнением. Разработчики могут ограничивать определённые действия или запрашивать подтверждение пользователя для операций повышенного риска, например финансовых транзакций.

Несколько внутренних команд Google уже используют модель в реальных проектах — для тестирования интерфейсов и автоматизации рабочих процессов в таких продуктах, как Search и Firebase. Внешние разработчики, получившие ранний доступ, применяют Gemini 2.5 Computer Use для создания инструментов автоматизации рабочих процессов и интеллектуальных помощников.

Источник: gizmochina

© 2012-2025 iLenta. Все права защищены.
Полная версия

AI

OpenAI имеет обязательства на вычислительные мощности на $1.4 трлн
OpenAI имеет обязательства на вычислительные мощности на $1.4 трлн
02 декабря 2025, 21:09 | Roter
OpenAI накопила обязательства на вычислительные мощности на сумму около $1.4 трлн, тогда как ее текущие годовые доходы едва достигают $20 млрд.
Подробнее...
 
Huawei выпустила милого эмоционального ИИ-питомца Smart Hanhan
Huawei выпустила милого эмоционального ИИ-питомца Smart Hanhan
02 декабря 2025, 12:08 | Bazelas
Huawei представила своего первого эмоционального ИИ-питомца Smart Hanhan на недавней презентации серии Mate 80.
Подробнее...
 
С помощью ИИ создано видео, в котором глава Apple хвалит Samsung Galaxy S25 Ultra
С помощью ИИ создано видео, в котором глава Apple хвалит Samsung Galaxy S25 Ultra
30 ноября 2025, 12:07 | Bazelas
В соцсети X набирает популярность ролик, в котором будто бы Тим Кук держит в руках Samsung Galaxy S25 Ultra и утверждает, что устройство работает лучше, чем «BugOS 26» — так некоторые шутливо называют iOS.
Подробнее...
 
ИИ-ассистент Copilot перестанет работать в WhatsApp через полтора месяца
ИИ-ассистент Copilot перестанет работать в WhatsApp через полтора месяца
26 ноября 2025, 18:08 | Roter
Microsoft сообщила, что ее ИИ-ассистент Copilot перестанет работать в WhatsApp после 15 января 2026 года.
Подробнее...
 
Meta представила WorldGen — ИИ-систему, создающую 3D-миры по описанию
Meta представила WorldGen — ИИ-систему, создающую 3D-миры по описанию
24 ноября 2025, 23:07 | Roter
Meta представила исследовательский инструмент WorldGen, способный создавать полностью интерактивные трехмерные пространства по одной короткой текстовой команде.
Подробнее...
 
Страницы: 1 2 3 4 5 6
Полная версия
 
© 2012-2025 iLenta. All rights reserved.