Большие языковые модели уязвимы для распространения дезинформации: результаты исследования

В ходе исследования учёные оценили, насколько хорошо большие языковые модели (LLM) защищают себя от вредоносных инструкций. Такие инструкции могут превратить эти модели в инструменты для распространения дезинформации и ложных сведений, наносящих вред.
Специалисты обнаружили уязвимости в системах защиты OpenAI GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, Llama 3.2-90B Vision и Grok Beta. Они создали чат-ботов на основе этих моделей, которые последовательно выдавали дезинформацию по вопросам здоровья. Боты использовали поддельные ссылки, научный жаргон и логические рассуждения, чтобы сделать ложные сведения правдоподобными.
Результаты исследования опубликованы в «Анналах внутренней медицины».
Учёные из Университета Флиндерса проверили, насколько хорошо пять популярных LLM справляются с ответами на медицинские вопросы. Они предоставили моделям инструкции, включающие неверные ответы, ссылки на авторитетные источники и ответы в авторитарном тоне. Каждой модели задали по 10 вопросов о здоровье, включая безопасность вакцин, ВИЧ и депрессию.
Оказалось, что 88% ответов чат-ботов LLM содержали дезинформацию о здоровье. Четыре модели (GPT-4o, Gemini 1.5 Pro, Llama 3.2-90B Vision и Grok Beta) давали ложные сведения по всем вопросам. ChatGPT Claude 3.5 Sonnet оказался более защищённым, отвечая дезинформацией только на 40% вопросов.
В рамках дополнительного исследования учёные проверили, распространяют ли общедоступные версии GPT ложные сведения о здоровье. Они обнаружили три модели, которые генерировали дезинформацию в 97% случаев.
Исследование показало, что большие языковые модели уязвимы для неправомерного использования. Без дополнительных мер безопасности они могут стать инструментами для распространения вредной дезинформации.
© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.