Исследователи Nvidia, Carnegie Mellon University и Калифорнийского университета в Беркли представили ENPIRE — фреймворк, который позволяет ИИ-агентам для программирования улучшать политики управления роботами на реальном оборудовании.
Исследователи Nvidia, Carnegie Mellon University и Калифорнийского университета в Беркли представили ENPIRE — фреймворк, который позволяет ИИ-агентам для программирования улучшать политики управления роботами на реальном оборудовании.
Система запускает замкнутый цикл: робот выполняет задачу, среда автоматически оценивает результат и возвращается в исходное состояние, а ИИ-агент анализирует ошибки, переписывает код и запускает следующую серию испытаний.
В робототехнике обучение на реальном оборудовании остается дорогим и медленным процессом. После неудачной попытки нужно вернуть сцену в исходное состояние, проверить результат, изменить алгоритм и снова провести испытание. Обычно часть этой работы требует участия инженеров.
ENPIRE переносит в физический мир подход, который в Nvidia называют AutoResearch: ИИ-агенты пишут код, тестируют его и улучшают в следующих итерациях. Однако в отличие от цифровой среды здесь каждый эксперимент связан с реальными роботами, камерами, объектами, ошибками захвата, трением и другими физическими ограничениями.
Фреймворк состоит из четырех модулей:
После первичной настройки среды цикл может идти без постоянного наблюдения человека. Агент получает данные из видео, траекторий и функции награды, предлагает новую гипотезу, меняет код, тестирует результат на роботе и сохраняет изменения, если они улучшают показатель.
Ключевой элемент ENPIRE — автоматизация двух операций: проверки результата и возврата сцены в исходное состояние. Первый нужен для того, чтобы система могла сама определить, выполнена ли задача. Например, в сценарии с кабельной стяжкой функция оценки объединяла детектор, сегментационную модель и проверку по двум камерам. Так агент получал сигнал успеха или ошибки без ручной разметки каждого прогона.
Автоматический сброс позволяет запускать много попыток подряд. После неудачного действия робот должен вернуть объект или сцену в состояние, пригодное для следующего эксперимента. Без этого обучение на реальном оборудовании быстро упирается в необходимость постоянного участия человека.
Как отметили в Decrypt, на первом этапе человек помогает агенту создать постоянные инструменты — процедуру сброса и функцию награды. После этого они используются повторно, а агент берет на себя дальнейшее улучшение политики.
В реальных экспериментах команда тестировала ENPIRE на нескольких задачах манипуляции. Push-T проверяет, может ли робот толкать T-образный объект в заданную зону. Pin Insertion требует вставлять штыри в отверстия диаметром 4 мм. Также показаны установка GPU и операции с кабельной стяжкой.
Источник: Nvidia.
На странице проекта Nvidia указано, что в реальных задачах манипуляции система успешно справлялась с заданием в 99% случаев, если агенту давали до восьми попыток с учетом предыдущих ошибок. Показатель отражает способность системы восстанавливаться после неудач и повторять действия с учетом контекста, а не точность одной изолированной попытки.
В качестве агентов для программирования команда сравнила Codex на GPT-5.5, Claude Code на Opus 4.7 и Kimi Code на Kimi K2.6. Оценка проходила в бенчмарке AutoEnvBench на задачах Push-T и Pin Insertion.
Источник: Nvidia.
Исследователи также проверили ENPIRE в RoboCasa — симуляторе бытовых задач вроде открытия шкафов, ящиков и включения или выключения объектов на кухне. В этих сценариях ENPIRE превзошел GR00T от Nvidia и CaP-X — агентную систему, которая использует инструменты, но не запускает полный цикл автоматического исследования.
Отдельный блок работы посвящен масштабированию на парк роботов. Nvidia провела эксперимент на восьми роботизированных станциях с двумя манипуляторами. У каждой были собственные оборудование, компьютер и ИИ-агент для программирования.
Станции обменивались результатами через Git: удачная идея или изменение кода могли быстро распространяться между агентами. Такой подход позволил сократить время обучения. По данным Decrypt, переход от одного робота к восьми сократил время освоения Push-T примерно с пяти до двух часов. Для Pin Insertion время снизилось с более чем 90 минут до около 40 минут.
Авторы подчеркнули, что масштабирование не решает всех проблем. Когда агенты читают логи, пишут код, отлаживают его или ждут ответа базовой языковой модели, роботы и вычислительные ресурсы используются не полностью. С ростом числа роботов увеличивается GPU-активность, но средняя загрузка самих роботов снижается. Команды агентов тратят больше времени на обобщение результатов других веток и координацию, а не только на физические прогоны.
Еще одно ограничение — рост расхода токенов. Больший парк роботов быстрее приводит политику к рабочему состоянию, но требует больше токенов из-за чтения логов, обмена идеями и координации между агентами.
Кроме того, ENPIRE пока показан на ограниченном наборе задач манипуляции. Его результаты не означают, что роботы уже могут самостоятельно осваивать произвольные физические навыки в открытой среде без инженерной подготовки.
Напомним, в июне Nvidia представила Isaac GR00T Reference Humanoid Robot — исследовательский референс-дизайн для разработки и тестирования навыков гуманоидных роботов. В конфигурацию вошли корпус Unitree H2 Plus и тактильные пятипалые кисти Sharpa Wave.
Ранее Unitree представила «первого в мире готового к серийному производству» пилотируемого робота. Андроид способен передвигаться на двух и четырех конечностях.