Билинейная регрессия последовательностей: как ИИ обучается на текстовых данных

Исследователи из Швейцарской высшей технической школы Лозанны разработали простую математическую модель, которая объясняет, почему современные чат-боты и другие системы искусственного интеллекта (ИИ) так хорошо понимают и используют язык. Их работа опубликована в научном журнале Physical Review X.

Сегодня ИИ активно развивается, особенно в области больших языковых моделей (LLM), таких как ChatGPT. Эти модели работают на основе нейронных сетей и обрабатывают длинные последовательности слов или частей слов, называемых «токенами». Каждый токен представлен в виде списка чисел, который отражает значение слова и его использование. Например, слово «кошка» может быть представлено списком чисел [0,15, -0,22, 0,47, ..., 0,09], а слово «собака» — другим списком чисел. Слова с похожим значением имеют похожие списки чисел, что позволяет ИИ распознавать их сходство.

Однако, несмотря на эффективность, мы не до конца понимаем, почему этот подход работает. Исследователи создали модель под названием «билинейная регрессия последовательностей» (BSR), которая помогает объяснить, как ИИ обучается на последовательностях токенов.

Исследование выявило, что обучение на основе последовательностей становится эффективным, когда модель «видит» достаточно примеров. Это открытие помогает лучше понять, как работают большие языковые модели, и может быть полезно для создания более простых и прозрачных ИИ-систем в будущем.

загрузка...

Политика конфиденциальности Пользовательское соглашение

© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.