Представьте себе, что вы покупаете робота для выполнения бытовых задач. Этот робот был создан и обучен на заводе определенному набору задач и никогда не видел предметов в вашем доме. Когда вы попросите его взять кружку с вашего кухонного стола, он может не узнать вашу кружку (возможно, потому, что на ней нарисовано необычное изображение, скажем, талисмана Массачусетского технологического института — бобра Тима). Таким образом, робот не справится с задачей.
Пенг и ее коллеги из Массачусетского технологического института, Нью-Йоркского университета и Калифорнийского университета в Беркли создали систему, которая позволяет человеку быстро и с минимальными усилиями научить робота тому, что он хочет сделать. Когда робот терпит неудачу, система с помощью алгоритма генерирует контрфактические объяснения, описывающие, что должно было измениться, чтобы робот добился успеха. Например, возможно, робот смог бы поднять кружку, если бы она была определенного цвета. Система показывает эти контрфактические объяснения человеку и просит его высказать свое мнение о причинах неудачи робота. Затем система использует эту обратную связь и контрфактические объяснения для генерации новых данных, которые используются для тонкой настройки робота. Тонкая настройка заключается в изменении модели машинного обучения, которая уже была обучена выполнять одну задачу, с тем чтобы она могла выполнять вторую, аналогичную задачу. Исследователи протестировали эту методику на симуляторах и обнаружили, что она позволяет обучать роботов более эффективно, чем другие методы. Роботы, обученные по этой схеме, показали лучшие результаты, а процесс обучения занял меньше времени у человека. Такая схема может помочь роботам быстрее осваиваться в новых условиях, не требуя от пользователя технических знаний. В перспективе это может стать шагом к тому, чтобы роботы общего назначения могли эффективно выполнять повседневные задачи для пожилых людей или людей с ограниченными возможностями в различных условиях. В работе Пенга, ведущего автора, принимают участие соавторы Авив Нетаньяху, аспирант EECS, Марк Хо, доцент Технологического института Стивенса, Тяньмин Шу, постдок MIT, Андреа Бобу, аспирант UC Berkeley, и старшие авторы Джули Шах, профессор аэронавтики и астронавтики MIT и директор группы интерактивной робототехники в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и Пулкит Агравал, профессор CSAIL. Результаты исследования будут представлены на Международной конференции по машинному обучению. Обучение на рабочем местеРоботы часто терпят неудачу из-за смены распределения — роботу предъявляются объекты и пространства, которых он не видел во время обучения, и он не понимает, что делать в этой новой среде. Одним из способов переучивания робота на выполнение конкретной задачи является имитационное обучение. Пользователь может продемонстрировать правильную задачу, чтобы научить робота, что нужно делать. Если пользователь пытается научить робота поднимать кружку, но демонстрирует белую кружку, робот может усвоить, что все кружки белые. Тогда он не сможет поднять красную, синюю или коричневую кружку «Тим-Бобер». Обучение робота распознаванию того, что кружка — это кружка, независимо от ее цвета, может занять тысячи демонстраций.
Для этого система исследователей определяет, какой именно объект важен пользователю (кружка) и какие элементы не важны для решения задачи (возможно, цвет кружки не имеет значения). На основе этой информации система генерирует новые, синтетические данные, изменяя эти «неважные» визуальные представления. Этот процесс называется дополнением данных. Схема состоит из трех этапов. Сначала показывается задача, которая привела к отказу робота. Затем она собирает демонстрацию пользователем желаемых действий и генерирует контрфактические данные, перебирая все признаки в пространстве, которые показывают, что нужно изменить, чтобы робот справился с задачей. Система показывает пользователю эти контрфакты и запрашивает обратную связь, чтобы определить, какие визуальные концепции не влияют на желаемое действие. Затем она использует эту обратную связь для создания множества новых дополненных демонстраций. Таким образом, пользователь может продемонстрировать, как он берет в руки одну кружку, а система, изменив ее цвет, создаст демонстрацию, показывающую требуемое действие с тысячами разных кружек. Эти данные используются для тонкой настройки робота.
От человеческих рассуждений к рассуждениям роботовПоскольку их работа направлена на то, чтобы включить человека в цикл обучения, исследователи протестировали свою методику на людях. Сначала они провели исследование, в котором спросили людей, помогают ли им контрфактические объяснения выявить элементы, которые можно изменить без ущерба для выполнения задачи.
Затем они применили свою схему на трех симуляторах, где роботам ставились задачи: проложить маршрут к целевому объекту, подобрать ключ и открыть дверь, а также подобрать нужный объект и положить его на столешницу. В каждом случае робот обучался быстрее, чем при использовании других методик, и при этом требовал меньше демонстраций от пользователя. В дальнейшем исследователи надеются протестировать эту схему на реальных роботах. Они также хотят сосредоточиться на сокращении времени, которое требуется системе для создания новых данных с помощью генеративных моделей машинного обучения.
18.07.2023 |
Хайтек
Открыт новый полупроводник с кристаллической решеткой в виде японского узора | |
Ученые СПбГУ вместе с коллегами из У... |
VCU: Аддитивное производство удешевляет производство магнитов | |
Новое исследование изменит производство традиц... |
SciRep: Разработан новый электроимпульсный метод переработки углеволокна | |
Мир стремительно движется к развитому буд... |
Российские ученые доказали теорию акустической турбулентности | |
Исследователи нашли новый способ моделирования... |
Производство термоядерной стали: первый промышленный успех в Великобритании | |
Рабочая группа Управления по атомной энер... |
ACSSCE: Превратить биомассу в полезный ресурс поможет инновационное устройство | |
Исследователи из Университета Кюсю разраб... |
Определен точный компьютерный алгоритм для восстановления изображения плазмы | |
Ученые обнаружили, что лучше всего изучат... |
Квантовый холодильник отлично очищает рабочее пространство квантового компьютера | |
Если вы хотите решить математическую зада... |
Катализатор нового поколения: ученые ускоряют производство водорода из аммиака | |
Ученые создали катализатор для получения ... |
В ТПУ разработали сенсоры для экспресс-мониторинга полезных и токсичных веществ | |
Специальные устройства — сенсоры, к... |
Умное кольцо с камерой позволяет управлять домашними устройствами | |
В то время как умные устройства в&nb... |
AIS: Носимый робот WeaRo снизит риск травм на производстве | |
Ученые разработали инновационного мягкого носи... |
Лазерные технологии будущего помогают создать микронаноматериал за один этап | |
Сверхбыстрый лазер всегда применялся в ка... |
MRAM-устройства будущего: создана новая технология с низким энергопотреблением | |
В последние годы появилось множество типов пам... |
Детектор sPHENIX готовится раскрыть тайны кварк-глюонной плазмы | |
Опираясь на наследие предшественника PHEN... |
Революционные квантовые технологии: как атомные часы изменят военные операции | |
Новаторские атомные часы, созданные в Вел... |
Успешно испытан новый метод измерения 5G-излучения мобильников и базовых станций | |
Группа исследователей из проекта GOLIAT р... |
PRA: Виноград поможет создать более совершенные квантовые технологии | |
Обычный виноград может улучшить работу квантов... |
В ПНИПУ нашли способ, как сократить простои и расходы на ремонт оборудования | |
На любом производстве, в том числе н... |
Совершен прорыв в области обнаружения коротковолнового инфракрасного излучения | |
Полевой транзистор с гетеропереходом, HGF... |
В СПбГУ втрое увеличили эффективность свечения многокомпонентной наноструктуры | |
Как сделать свечение некоторых устройств более... |
На СКИФе в Новосибирской области получили первый пучок электронов | |
В наукограде Кольцово, недалеко от Новоси... |
LS&A: Разработаны новые органические материалы для инфракрасных фотоприемников | |
Органические инфракрасные фотоприемники сталки... |
В POSTECH приблизили будущее с растягивающейся электроникой | |
Исследователи POSTECH создали новую технологию... |
В ННГУ создали импортозамещающую установку для альтернативных источников газа | |
Устройство для изучения процесса образова... |
В МИФИ разработали робота-официанта и уже заинтересовали общепит и супермаркет | |
Команда студентов Национального исследовательс... |
В МГУ открыли неожиданную трансформацию диоксида церия в фосфатных растворах | |
Ученые из МГУ, Института общей и нео... |
В МГУ моделируют свойства оксида магния в разных фазовых состояниях | |
Сотрудники кафедры физической химии химическог... |
В ТПУ создали сенсор для поиска пестицидов в 10 раз чувствительнее аналогов | |
Ученые из Томского политехнического униве... |
Устройство из специального стекла увеличит передачу данных в несколько раз | |
Ученые из Москвы и Нижнего Новгорода... |