Ученые разработали систему для решения проблемы многорукого бандита

Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение.

Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal.

Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы считают, что данное исследование «впервые связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его в динамической среде». Задачи обучения с подкреплением обычно ставятся в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, является более сложной, чем статическая среда в задаче о бандите.

В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением.

При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием.

Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.

21.08.2023


Подписаться в Telegram



Net&IT

Студенты ТИСБИ разработали проект онлайн-платформы для геймеров
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров

Студенты Университета управления ТИСБИ в ...

Nature: Созданные ИИ тексты будут размечаться водяными знаками
Nature: Созданные ИИ тексты будут размечаться водяными знаками

Исследователи из лондонской лаборатории G...

Российская игра о наполеоновских войнах станет бесплатной
Российская игра о наполеоновских войнах станет бесплатной

У российской аудитории растет интерес к в

В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»

В Новосибирском государственном университете з...

Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме

Технологические корпорации всё чаще обращ...

HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому

В исследовании Имперского колледжа Лондона люд...

В МФТИ создали ПО для нефтяников и золотодобытчиков
В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

Студенты КНИТУ создали двуязычного ИИ-бота для туристов
Студенты КНИТУ создали двуязычного ИИ-бота для туристов

Студенты КНИТУ создали туристического бота с&n...

ACS Photonics: Разработаны улучшенные очки дополненной реальности
ACS Photonics: Разработаны улучшенные очки дополненной реальности

Дополненная реальность накладывает цифровые из...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Российские ученые предложили использовать вирус растений для лечения саркомы
Российские ученые предложили использовать вирус растений для лечения саркомы
Menopause: Ученые заподозрили роль эстрогена в развитии астмы
Menopause: Ученые заподозрили роль эстрогена в развитии астмы
AEM: Гибридный полупроводник позволит лучше понять спинтронику
AEM: Гибридный полупроводник позволит лучше понять спинтронику
FCoSc: Гигантские крысы поборются с незаконной торговлей дикими животными
FCoSc: Гигантские крысы поборются с незаконной торговлей дикими животными
В России разработали искусственные кости и новые методы лечения позвоночника
В России разработали искусственные кости и новые методы лечения позвоночника
TE&E: Животные потребляют алкоголь чаще, чем мы думаем
TE&E: Животные потребляют алкоголь чаще, чем мы думаем
Волнообразные упражнения со штангой: польза или вред
Волнообразные упражнения со штангой: польза или вред
JA&FC: Сорго обогащает рацион питания биоактивными соединениями
JA&FC: Сорго обогащает рацион питания биоактивными соединениями
Nature Communications: Жизнь все-таки можно повернуть назад
Nature Communications: Жизнь все-таки можно повернуть назад
МАИ: Дроны-дефектоскописты уступают человеку в точности, зато берут скоростью
МАИ: Дроны-дефектоскописты уступают человеку в точности, зато берут скоростью
EBioMedicine: Создан инструмент для выявления сепсиса у новорожденных
EBioMedicine: Создан инструмент для выявления сепсиса у новорожденных
Численное моделирование повысит эффективность 3D-печати из стали 316LSi
Численное моделирование повысит эффективность 3D-печати из стали 316LSi
Создан особо пластичный алюминиевый сплав для высокотехнологичных отраслей
Создан особо пластичный алюминиевый сплав для высокотехнологичных отраслей
Влияние цвета в архитектуре на самоконтроль человека: мнение эксперта МХПИ
Влияние цвета в архитектуре на самоконтроль человека: мнение эксперта МХПИ
Томские ученые представили цифровое решение для оптимизации НПЗ
Томские ученые представили цифровое решение для оптимизации НПЗ

Новости компаний, релизы

Международные эксперты оценили разработанную для нижегородского завода технологию
Регистрация сми на IV конгресс молодых ученых продлевается до 6 ноября
Фестиваль научных театров «Наука всем!» прошёл в Санкт-Петербурге
На старт! Внимание! MITEX!
Пироговская олимпиада для школьников по химии и биологии