Google представила ШІ-модель Gemini 2.5 Computer Use
Модель вже доступна у публічній попередній версії через Gemini API у Google AI Studio та Vertex AI. Gemini 2.5 Computer Use заснована на можливостях візуального сприйняття та логічного аналізу моделі Gemini 2.5 Pro. Вона здатна виконувати широкий спектр дій у браузері — натискати кнопки, вводити текст, прокручувати сторінки, наводити курсор, відкривати меню, що випадають, і переходити за посиланнями.
За словами Google, нова модель перевершує конкуруючі рішення в тестах Online-Mind2Web, WebVoyager та AndroidWorld, забезпечуючи меншу затримку відгуку.

На відміну від традиційних ШІ-моделей, які працюють через API, Gemini 2.5 Computer Use аналізує скріншоти веб-інтерфейсів і на їх основі генерує конкретні дії в інтерфейсі користувача. Агент отримує завдання у вигляді текстового запиту, знімок екрану та історію останніх дій. Після аналізу інтерфейсу він вибирає відповідну дію — наприклад, клік по кнопці або введення тексту в поле. Дія виконується за клієнта, потім створюється новий скріншот, і процес триває циклічно.
На демонстрації Google показала, як агент сортує стікери на цифровій дошці та переносить дані про вихованців з одного сайту до CRM-системи. Відеоприклади були прискорені, щоб показати процес у реальному часі.
На даний момент модель підтримує 13 типів дій та оптимізована для роботи в браузері. Підтримка завдань на рівні настільних операційних систем поки що не реалізована, проте модель вже показує хороші результати на мобільних тестах.

Для запобігання зловживанням Google запровадила багаторівневу систему безпеки: кожна дія, запропонована моделлю, проходить перевірку службою безпеки перед виконанням. Розробники можуть обмежувати певні дії або вимагати підтвердження користувача для операцій підвищеного ризику, наприклад, фінансових транзакцій.
Декілька внутрішніх команд Google вже використовують модель у реальних проєктах — для тестування інтерфейсів та автоматизації робочих процесів у таких продуктах, як Search та Firebase. Зовнішні розробники, які отримали ранній доступ, використовують Gemini 2.5 Computer Use для створення інструментів автоматизації робочих процесів та інтелектуальних помічників.
Джерело: gizmochina
AI
