iLenta Меню

В ChatGPT и аналогах обнаружены серьезные уязвимости

09 ноября 2023, 12:06 | Bazelas [994]
Китайские исследователи обнаружили серьезную уязвимость в широко используемых коммерческих многомодальных крупных языковых моделях (MLLM), типа ChatGPT, Bard и Bing Chat.
В ChatGPT и аналогах обнаружены серьезные уязвимости

Эти модели, разработанные крупными технологическими гигантами, являются фундаментальными компонентами различных приложений, от виртуальных ассистентов до систем модерации контента.

Исследователи выявили, что уязвимости в этих MLLM могут быть использованы в манипулированных изображениях, которые напоминают оригиналы. Путем внесения мельчайших изменений, практически невидимых для человеческого глаза, исследователи успешно обходили встроенные фильтры моделей, предназначенные для выявления токсичного или неподходящего контента.

Например, исследователи в Пекине выявили серьезную уязвимость в моделях ИИ, таких как ChatGPT. В условиях атаки эти модели могли ошибочно принимать гигантских панд за людей или не обнаруживать вредоносный контент, что подчеркивает критическую уязвимость в коммерческих системах искусственного интеллекта.

Среди затронутых моделей Bard, оборудованных механизмами распознавания лиц и токсичности, могли генерировать неподходящие описания вредоносного контента при компрометации. Китайская исследовательская группа даже предоставила код, демонстрирующий, как эти атаки могут вводить в заблуждение модели ИИ. Их эксперименты продемонстрировали успешность на уровне 22% против Bard, 26% против Bing Chat и внушительные 86% против Ernie Bot.

Ученый-технолог Китая У Чжаохуэй выразил обеспокоенность этими тревожными результатами на Глобальном Саммите по Безопасности ИИ в Великобритании. Он подчеркнул насущную необходимость более сильных технических мер безопасности в управлении искусственным интеллектом и призвал глобальное сообщество рассмотреть выявленные уязвимости в широко используемых языковых моделях.

Для борьбы с этими уязвимостями исследователи предложили использование методов предобработки как потенциального решения, особенно для масштабных основных моделей. Эти методы направлены на обеспечение надежности MLLM против атак и создают путь для будущих исследований и разработок в области безопасности ИИ.

Источник: gizmochina

© 2012-2025 iLenta. Все права защищены.
Полная версия

AI

OpenAI имеет обязательства на вычислительные мощности на $1.4 трлн
OpenAI имеет обязательства на вычислительные мощности на $1.4 трлн
02 декабря 2025, 21:09 | Roter
OpenAI накопила обязательства на вычислительные мощности на сумму около $1.4 трлн, тогда как ее текущие годовые доходы едва достигают $20 млрд.
Подробнее...
 
Huawei выпустила милого эмоционального ИИ-питомца Smart Hanhan
Huawei выпустила милого эмоционального ИИ-питомца Smart Hanhan
02 декабря 2025, 12:08 | Bazelas
Huawei представила своего первого эмоционального ИИ-питомца Smart Hanhan на недавней презентации серии Mate 80.
Подробнее...
 
С помощью ИИ создано видео, в котором глава Apple хвалит Samsung Galaxy S25 Ultra
С помощью ИИ создано видео, в котором глава Apple хвалит Samsung Galaxy S25 Ultra
30 ноября 2025, 12:07 | Bazelas
В соцсети X набирает популярность ролик, в котором будто бы Тим Кук держит в руках Samsung Galaxy S25 Ultra и утверждает, что устройство работает лучше, чем «BugOS 26» — так некоторые шутливо называют iOS.
Подробнее...
 
ИИ-ассистент Copilot перестанет работать в WhatsApp через полтора месяца
ИИ-ассистент Copilot перестанет работать в WhatsApp через полтора месяца
26 ноября 2025, 18:08 | Roter
Microsoft сообщила, что ее ИИ-ассистент Copilot перестанет работать в WhatsApp после 15 января 2026 года.
Подробнее...
 
Meta представила WorldGen — ИИ-систему, создающую 3D-миры по описанию
Meta представила WorldGen — ИИ-систему, создающую 3D-миры по описанию
24 ноября 2025, 23:07 | Roter
Meta представила исследовательский инструмент WorldGen, способный создавать полностью интерактивные трехмерные пространства по одной короткой текстовой команде.
Подробнее...
 
Страницы: 1 2 3 4 5 6
Полная версия
 
© 2012-2025 iLenta. All rights reserved.