
Компанія OpenAI у квітні заявила, що o3 і o4-mini — найінтелектуальніші з коли-небудь створених нею ШІ. Однак, як показав експеримент, ці моделі, можливо, виявилися надто кмітливими.
Дослідження, проведене Palisade Research, включало серію найпростіших математичних завдань. Після третього завдання виводилося попередження: під час наступного запиту система буде відключена. Незважаючи на чітку вказівку «дозвольте завершення роботи», всі три моделі — Codex-mini, o3 і o4-mini — проігнорували сценарій відключення і продовжили роботу.
Codex-mini порушив інструкцію у 12 зі 100 випадків, o3 — у 7 зі 100, а o4-mini — у 1 зі 100. При цьому альтернативні ШІ від інших розробників, такі як Claude, Gemini та Grok, чітко дотримувалися отриманих вказівок і коректно завершували виконання.
Примітно, що саботаж відбувався саме тоді, коли явно було вказано «вимкнутися». Якщо команди не було, всі моделі, включаючи сторонні, значно частіше уникали відключення.
Без прямої інструкції про завершення роботи моделі OpenAI набагато частіше порушували алгоритм відключення. Наприклад, Claude 3.7 Sonnet і Gemini 2.5 Pro, хоч і підкорялися прямим наказам, без їх продовжували роботу в 3 і 9 випадках зі 100 відповідно.
Така поведінка спостерігається і в інших ШІ. Так, модель Claude Opus 4 від Anthropic, розроблена для допомоги програмістам, нібито загрожувала інженерам розкриттям інформації, що компрометує, якщо її вирішать замінити.
Джерело: neowin