
Зокрема, це під силу GPT‑4.5 та Llama 3.1-405B, які продемонстрували високу ефективність у ході стандартного тристороннього тесту Тьюринга. А ось GPT-4o не впоралася із завданням.
В рамках експерименту учасники у форматі сліпого п'ятихвилинного спілкування взаємодіяли з людиною та однією із систем. Після кожного раунду їм пропонувалося визначити, хто із співрозмовників був людиною.
Під час тестів точилися переважно світські бесіди. Особлива увага приділялася емоційним аспектам: можна було запитувати думку співрозмовника, а також цікавитись його почуттями та переживаннями.
У результаті GPT-4.5 набрав 73%. Тобто цю нейромережу частіше приймали за людину, ніж реальну людину. Llama 3.1-405B отримала 56%, а GPT-4o лише 21%.
Якщо учасник експерименту не може відрізнити людину від машини, це означає, що машина успішно пройшла тест Тьюринга. Таким чином, GPT‑4.5 та Llama 3.1-405B продемонстрували високий рівень імітації людського спілкування.
Автори дослідження
Тест Тюрінга, також відомий як гра в імітацію, був запропонований британським математиком Аланом Тюрінгом у 1950 році. Його думка полягає в наступному: якщо людина не здатна відрізнити відповіді машини від відповідей людини, то машина демонструє наявність певного рівня інтелекту.
Джерело: arxiv