Ученые разработали систему для решения проблемы многорукого бандита

Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение.

Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal.

Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы считают, что данное исследование «впервые связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его в динамической среде». Задачи обучения с подкреплением обычно ставятся в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, является более сложной, чем статическая среда в задаче о бандите.

В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением.

При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием.

Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.

21.08.2023


Подписаться в Telegram



Net&IT

Инженеры воссоздали голопалубу Star Trek с помощью ChatGPT и видеоигр
Инженеры воссоздали голопалубу Star Trek с помощью ChatGPT и видеоигр

В сериале Звездный путь: Следующее поколение к...

Physical Review X: Сеть квантовых датчиков повышает точность измерений
Physical Review X: Сеть квантовых датчиков повышает точность измерений

Квантовые системы, используемые в квантов...

Scientific Reports: ИИ показал больший творческий потенциал, чем человек
Scientific Reports: ИИ показал больший творческий потенциал, чем человек

Еще один балл в пользу искусственного инт...

Крошечную метку на замену RFID сделали еще надежнее
Крошечную метку на замену RFID сделали еще надежнее

Несколько лет назад исследователи Массачу...

Ученые приблизились к более легким и гибким оптоэлектронным устройствам
Ученые приблизились к более легким и гибким оптоэлектронным устройствам

Органические оптоэлектронные устройства, такие...

PNAS Nexus: ИИ пока еще далеко до человеческих способностей мыслить
PNAS Nexus: ИИ пока еще далеко до человеческих способностей мыслить

Атанасиос С. Фокас рассматривает актуальный во...

Nature: ИИ генерирует белки с исключительной прочностью связывания
Nature: ИИ генерирует белки с исключительной прочностью связывания

В новом исследовании, опубликованном 18 декабр...

Nature Computational Science: ИИ может предсказывать события в жизни людей
Nature Computational Science: ИИ может предсказывать события в жизни людей

Искусственный интеллект, разработанный для&nbs...

Nature Electronics: Изменение памяти дает новые вычислительные возможности
Nature Electronics: Изменение памяти дает новые вычислительные возможности

Ученые Рочестерского университета разработали ...

Nature: 2D-материал изменяет форму 3D-электроники для искусственного интеллекта
Nature: 2D-материал изменяет форму 3D-электроники для искусственного интеллекта

Многофункциональные компьютерные чипы эволюцио...

Началась регистрация на конкурс «Битва искусственных интеллектов»
Началась регистрация на конкурс «Битва искусственных интеллектов»

Стартовал отборочный этап Международного техно...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Heart Rhythm: Ученые рапортуют об отличных итогах лечения фибрилляции предсердий
Heart Rhythm: Ученые рапортуют об отличных итогах лечения фибрилляции предсердий
ИИ-платформа для анализа изображений поможет развивать исследования во всем мире
ИИ-платформа для анализа изображений поможет развивать исследования во всем мире
Nature Neuroscience: Ученые доказали, что терпение приносит свои плоды
Nature Neuroscience: Ученые доказали, что терпение приносит свои плоды
Познакомьтесь со странной амфибией, которая выкармливает своих детенышей молоком
Познакомьтесь со странной амфибией, которая выкармливает своих детенышей молоком
Climate Dynamics: Вот как условия на суше влияют на муссонный климат Азии
Climate Dynamics: Вот как условия на суше влияют на муссонный климат Азии
В 40% случаев люди ошибочно называют сгенерированное фото человека реальным
В 40% случаев люди ошибочно называют сгенерированное фото человека реальным
Nature Communications: Открыто революционное явление в жидких кристаллах
Nature Communications: Открыто революционное явление в жидких кристаллах
BioDesign Research: Для производства каротиноидов разработали специальные дрожжи
BioDesign Research: Для производства каротиноидов разработали специальные дрожжи
Nature Communications: В мигрирующих нейронах найден конус роста
Nature Communications: В мигрирующих нейронах найден конус роста
Current Biology: Исследование брачного поведения показывает эволюцию влечения
Current Biology: Исследование брачного поведения показывает эволюцию влечения
Scientific Reports: Реакция на происходящее влияет на понимание будущих событий
Scientific Reports: Реакция на происходящее влияет на понимание будущих событий
JRSNZ: Ветряные электростанции могут компенсировать выбросы за 2 года
JRSNZ: Ветряные электростанции могут компенсировать выбросы за 2 года
Science Advances: Мозг формирует эмоции независимо от органов чувств
Science Advances: Мозг формирует эмоции независимо от органов чувств
Nature: Международная группа ученых решает сложную физическую задачу
Nature: Международная группа ученых решает сложную физическую задачу
Печатный полимер позволяет изучить хиральность и спины при комнатной температуре
Печатный полимер позволяет изучить хиральность и спины при комнатной температуре

Новости компаний, релизы

Треть работодателей тратят на адаптацию одного нового сотрудника до 100 тысяч рублей
Палеонтолог СПбГУ описал новый вид динозавров-бегунов из Кемеровской области
Ученые ТПУ нашли решение фундаментальной проблемы ионной имплантации
Ученые СПбГУ разработали метод, увеличивающий эффективность добычи углеводородов
Президенту Узбекистана презентовали вертолет Ансат