Недостатки традиционных тестов для оценки ИИ и необходимость новой системы оценки

Когда компания OpenAI выпустила GPT-5, она заявила, что новая система «намного умнее» предыдущих моделей, ссылаясь на высокие баллы в тестах по программированию, математике и здравоохранению. Такие тесты важны, но они мало говорят о реальной производительности ИИ.
Группа исследователей ИИ и метрологов предложила новый подход к оценке систем ИИ, учитывая их надежность, экономическое, культурное и социальное влияние. Проблема текущих тестов — они не отражают реальные условия работы ИИ.
Для разработчиков ИИ важно демонстрировать эффективность через бенчмарки, но они могут манипулировать результатами. Например, стартап Cognition AI привлек 175 млн долларов США после успешных тестов, а Meta скорректировала модель Llama-4 для улучшения показателей.
Современные системы достигают высоких результатов в тестах, но не отражают сложности реальной практики. В медицине используется система MedHELM с 35 контрольными показателями. Однако эти методы не учитывают взаимодействие людей с ИИ и их влияние на общество.
Необходима новая система оценки, основанная на опыте научных кругов, промышленности и общества. Она должна включать «красную команду» и полевое тестирование для измерения реального влияния ИИ.
Если ИИ оправдает надежды, наука об измерениях должна защищать интересы всех, а не только технологической элиты.
© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.