
Ці моделі, розроблені великими технологічними гігантами, є фундаментальними компонентами різних програм, від віртуальних помічників до систем модерації контенту.
Дослідники виявили, що вразливості у цих MLLM можуть бути використані у маніпульованих зображеннях, які нагадують оригінали. Шляхом внесення дрібних змін, практично невидимих для людського ока, дослідники успішно оминали вбудовані фільтри моделей, призначені для виявлення токсичного або невідповідного контенту.
Наприклад, дослідники в Пекіні виявили серйозну вразливість у моделях ШІ, таких як ChatGPT. В умовах атаки ці моделі могли помилково приймати гігантських панд за людей або не виявляти шкідливого контенту, що підкреслює критичну вразливість у комерційних системах штучного інтелекту.
Серед порушених моделей Bard, обладнаних механізмами розпізнавання облич та токсичності, могли генерувати невідповідні описи шкідливого контенту під час компрометації. Китайська дослідницька група навіть надала код, який демонструє, як ці атаки можуть вводити в оману моделі ШІ. Їхні експерименти продемонстрували успішність на рівні 22% проти Bard, 26% проти Bing Chat та значні 86% проти Ernie Bot.
Вчений-технолог з Китаю Чжаохуей висловив стурбованість цими тривожними результатами на Глобальному Саміті з безпеки ШІ у Великій Британії. Він наголосив на нагальній необхідності сильніших технічних заходів безпеки в управлінні штучним інтелектом і закликав глобальну спільноту розглянути виявлені вразливості в мовних моделях, що широко використовуються.
Для боротьби з цими вразливостями дослідники запропонували використання методів попередньої обробки як потенційного рішення, особливо для масштабних основних моделей. Ці методи спрямовані на забезпечення надійності MLLM проти атак та створюють шлях для майбутніх досліджень та розробок у галузі безпеки ШІ.
Джерело: gizmochina