Стресс-тестирование мультимодальных ИИ в медицине: проблемы и рекомендации

Исследовательское подразделение Microsoft сообщает, что успешные мультимодальные системы ИИ демонстрируют нестабильное поведение при стресс-тестах: дают правильные ответы без изображений, меняют ответы при незначительных изменениях подсказок и приводят надуманные доводы.
Медицинские ИИ-заключения не всегда точны и не пользуются доверием из-за критериев оценки, поощряющих поиск закономерностей, а не понимания медицинских аспектов. Точность диагнозов важна для снижения стоимости и повышения доступности медицинской помощи.
Исследование показало, что удаление визуального ввода снижает точность моделей.
Для вопросов, требующих визуального ввода, текстовые модели показали результат выше случайного уровня, но значительно ниже ожидаемого. При изменении формата и добавлении отвлекающих факторов точность текстовых ответов снизилась, а графических — повысилась.
Контрфактические визуальные замены привели к снижению точности. Авторы предупреждают, что высокие результаты тестов не отражают клиническую готовность, и рекомендуют систематическое стресс-тестирование, детальную документацию и показатели надежности для обеспечения доверия к ИИ в медицине.
© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.