
Це веб-застосунок, який може виконувати прості завдання в браузері, такі як бронювання квитків на концерт або оформлення замовлення в маркетплейсі. Він працює на базі нової моделі Computer-Using Agent (CUA).
У компанії стверджують, що її інструмент перевершує всі аналоги, включаючи Computer Use від Anthropic (теж може виконувати прості завдання на ПК) та Mariner від Google DeepMind (агент для перегляду веб-сторінок, створений на основі Gemini 2.0).
Той факт, що три провідні світові компанії в галузі штучного інтелекту зосередилися на одному напрямку, ясно показує: у гонці за лідерство в AI виник новий фронт — екрани наших комп'ютерів.
Перехід від створення тексту та зображень до виконання завдань — це правильний напрямок. Це відкриває додаткові можливості та вирішує старі проблеми.
Алі Фархаді, генеральний директор Алленівського інституту штучного інтелекту (AI2)
Operator «читає» екран, аналізує пікселі та виконує дії, взаємодіючи з графічними інтерфейсами, як людина. Нейросітка виконує завдання на більшості веб-сайтів, повторюючи цикл: сканує дисплей, виконує дію, знову сканує і виконує ще одну дію і таке інше.
CUA ділить завдання на дрібніші етапи і послідовно працює з ними, повертаючись до попередніх, якщо стикається з труднощами. В OpenAI відзначають, що нейромережа навчалася з використанням методів, схожих на ті, які застосовуються для моделей міркування o1 і o3.
Компанія протестувала агента на низці галузевих завдань. Наприклад, у OSWorld, де перевіряються такі навички, як поєднання PDF-файлів або робота із зображеннями, він показав результат 38,1% порівняно з 22,0% у Computer Use. Для порівняння середній показник у людей становить 72,4%. У тесті WebVoyager, що оцінює ефективність виконання завдань у браузері, Operator набрав 87%, Mariner — 83,5%, а Computer Use — 56%.
Поки новий інструмент може виконувати завдання лише у браузері. OpenAI планує розширити його можливості у майбутньому через API.
Для його використання достатньо ввести інструкції у текстове поле. Однак, замість відкриття браузера на вашому комп'ютері, система відправляє їх у віддалений браузер, що працює на сервері OpenAI. У компанії стверджують, що це підвищує ефективність.
Оскільки агент працює у хмарі, він може виконувати кілька завдань одночасно. У демонстрації один із творців попросив його використати онлайн-платформу OpenTable, щоб забронювати йому столик на двох о 18:30 у ресторані Octavia у Сан-Франциско. Він спритно впорався з цим багатокроковим завданням.
Поки що Operator доступний тільки в США за підпискою ChatGPT Pro. У компанії обіцяють у майбутньому розгорнути інструмент для інших користувачів.
Джерело: OpenAI