3D-GRAND: новый набор данных для обучения роботов пониманию трёхмерного пространства

Учёные из Мичиганского университета создали новый набор данных под названием 3D-GRAND. Он содержит 3D-изображения текста с подробными пояснениями. Этот набор данных поможет обучать роботов, чтобы они лучше понимали, как связывать слова с трёхмерным пространством.

Исследование было представлено на конференции CVPR в Нэшвилле и опубликовано на сайте arXiv. Модель, обученная на 3D-GRAND, показала более высокую точность распознавания — 38%, что на 7,7% лучше предыдущих результатов. Также она значительно уменьшила количество ошибок — с 48% до 6,67%.

Этот набор данных поможет создать более продвинутых домашних роботов, которые смогут выполнять сложные команды, например, «принеси книгу с прикроватной тумбочки». Для этого роботы должны понимать, где находятся предметы в пространстве.

Профессор Джойс Чай из Мичиганского университета отметила, что большинство языковых моделей обучаются на текстах и 2D-изображениях, но мы живём в трёхмерном мире. Чтобы роботы могли взаимодействовать с нами, они должны понимать пространственные термины, расположение объектов и использовать язык в трёхмерной среде.

загрузка...

Политика конфиденциальности Пользовательское соглашение

© 2015-2025 Сетевое издание «Фактом». Зарегистрировано в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Реестровая запись ЭЛ No ФС 77 - 67652 от 10.11.2016.