В ChatGPT и аналогах обнаружены серьезные уязвимости

09 ноября 2023, 12:06 | Bazelas [1094]

Китайские исследователи обнаружили серьезную уязвимость в широко используемых коммерческих многомодальных крупных языковых моделях (MLLM), типа ChatGPT, Bard и Bing Chat.

В ChatGPT и аналогах обнаружены серьезные уязвимости

Эти модели, разработанные крупными технологическими гигантами, являются фундаментальными компонентами различных приложений, от виртуальных ассистентов до систем модерации контента.

Исследователи выявили, что уязвимости в этих MLLM могут быть использованы в манипулированных изображениях, которые напоминают оригиналы. Путем внесения мельчайших изменений, практически невидимых для человеческого глаза, исследователи успешно обходили встроенные фильтры моделей, предназначенные для выявления токсичного или неподходящего контента.

Например, исследователи в Пекине выявили серьезную уязвимость в моделях ИИ, таких как ChatGPT. В условиях атаки эти модели могли ошибочно принимать гигантских панд за людей или не обнаруживать вредоносный контент, что подчеркивает критическую уязвимость в коммерческих системах искусственного интеллекта.

Среди затронутых моделей Bard, оборудованных механизмами распознавания лиц и токсичности, могли генерировать неподходящие описания вредоносного контента при компрометации. Китайская исследовательская группа даже предоставила код, демонстрирующий, как эти атаки могут вводить в заблуждение модели ИИ. Их эксперименты продемонстрировали успешность на уровне 22% против Bard, 26% против Bing Chat и внушительные 86% против Ernie Bot.

Ученый-технолог Китая У Чжаохуэй выразил обеспокоенность этими тревожными результатами на Глобальном Саммите по Безопасности ИИ в Великобритании. Он подчеркнул насущную необходимость более сильных технических мер безопасности в управлении искусственным интеллектом и призвал глобальное сообщество рассмотреть выявленные уязвимости в широко используемых языковых моделях.

Для борьбы с этими уязвимостями исследователи предложили использование методов предобработки как потенциального решения, особенно для масштабных основных моделей. Эти методы направлены на обеспечение надежности MLLM против атак и создают путь для будущих исследований и разработок в области безопасности ИИ.

Источник: gizmochina

Полная версия