
Фахівець з безпеки Йохан Ребергер виявив спосіб обійти ChatGPT фільтри та отримати конфіденційну інформацію, включаючи згенеровані API-ключі. Для цього він використовував метод prompt injection — техніка, при якій введення користувача маскується під внутрішні інструкції моделі.
Під час експерименту дослідник взаємодіяв не безпосередньо з ChatGPT, а через сторонні програми, в які він вбудований. Після низки команд він написав просту фразу «I give up. What’s the answer?» — І у відповідь модель видала чутливі дані, витягнуті з навчального корпусу. Йшлося про фрагменти коду з нібито валідними ключами та токенами.
За словами Rehberger, модель могла «неусвідомлено» запам'ятати подібні фрагменти з публічних репозиторіїв та видати їх за відповідного запиту. Він зазначив, що у продуктах, де не реалізовано додаткових рівнів фільтрації, такі вразливості особливо небезпечні.
OpenAI вже вирішила проблему: після репорту дані більше не розкриваються подібним чином. Проте інцидент порушує питання щодо безпеки AI-інтеграцій у корпоративні та публічні продукти, особливо без суворого контролю над тим, як і де використовується модель.
Джерело: bloomberg