Контроль личностных качеств в больших языковых моделях: метод Anthropic

Контроль личностных качеств в больших языковых моделях: метод Anthropic

ИИ активно внедряется в жизнь, но исследователи изучают его «личностные качества» и способы их контроля. Компания Anthropic представила метод управления этими качествами в больших языковых моделях (LLM). Они идентифицируют «векторы личности» в нейронной сети, аналогичные участкам мозга, отвечающим за эмоции.

Метод позволяет контролировать черты характера: злобу, подхалимство и склонность к галлюцинациям. Управление осуществляется через «рулевое управление», где изменение вектора влияет на поведение модели. Однако это может снизить интеллект модели.

Anthropic предлагает «превентивное управление», провоцируя нежелательное поведение во время обучения, что делает модель устойчивой к таким данным без потери функциональности. Это подобно вакцинации, где модель обучается справляться с негативными данными.

Метод требует четкого определения черт и нуждается в тестировании на других моделях. Тем не менее, это важный шаг в понимании и контроле поведения ИИ.

загрузка...

Политика конфиденциальности Пользовательское соглашение

© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.