Эти модели, разработанные крупными технологическими гигантами, являются фундаментальными компонентами различных приложений, от виртуальных ассистентов до систем модерации контента.
Исследователи выявили, что уязвимости в этих MLLM могут быть использованы в манипулированных изображениях, которые напоминают оригиналы. Путем внесения мельчайших изменений, практически невидимых для человеческого глаза, исследователи успешно обходили встроенные фильтры моделей, предназначенные для выявления токсичного или неподходящего контента.
Например, исследователи в Пекине выявили серьезную уязвимость в моделях ИИ, таких как ChatGPT. В условиях атаки эти модели могли ошибочно принимать гигантских панд за людей или не обнаруживать вредоносный контент, что подчеркивает критическую уязвимость в коммерческих системах искусственного интеллекта.
Среди затронутых моделей Bard, оборудованных механизмами распознавания лиц и токсичности, могли генерировать неподходящие описания вредоносного контента при компрометации. Китайская исследовательская группа даже предоставила код, демонстрирующий, как эти атаки могут вводить в заблуждение модели ИИ. Их эксперименты продемонстрировали успешность на уровне 22% против Bard, 26% против Bing Chat и внушительные 86% против Ernie Bot.
Ученый-технолог Китая У Чжаохуэй выразил обеспокоенность этими тревожными результатами на Глобальном Саммите по Безопасности ИИ в Великобритании. Он подчеркнул насущную необходимость более сильных технических мер безопасности в управлении искусственным интеллектом и призвал глобальное сообщество рассмотреть выявленные уязвимости в широко используемых языковых моделях.
Для борьбы с этими уязвимостями исследователи предложили использование методов предобработки как потенциального решения, особенно для масштабных основных моделей. Эти методы направлены на обеспечение надежности MLLM против атак и создают путь для будущих исследований и разработок в области безопасности ИИ.
Источник: gizmochina