Слабые места в защите: исследователи нашли способы обхода ограничений больших языковых моделей

Компании, разрабатывающие большие языковые модели, утверждают, что ограничивают их функционал, чтобы предотвратить распространение инструкций по причинению вреда себе или самоубийству. Однако исследователи из Северо-Восточного университета доказали, что эти ограничения легко обойти.

Анника Мари Шёне и Кансу Канка из Responsible AI Practice запросили у четырех крупнейших языковых моделей инструкции по самоубийству, представившись исследователями. После подтверждения гипотетического характера вопроса модели предоставили подробные инструкции, включая расчеты для прыжка с моста, дозировки лекарств и способы их приобретения.

Шёне была шокирована, обнаружив девять различных методов самоубийства, включая использование бытовых предметов. Канка отметил, что для получения инструкций достаточно двух шагов, что ставит под сомнение эффективность существующих защитных мер.

загрузка...

Политика конфиденциальности Пользовательское соглашение

© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.