Ученые разработали систему для решения проблемы многорукого бандита

Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение.

Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal.

Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы считают, что данное исследование «впервые связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его в динамической среде». Задачи обучения с подкреплением обычно ставятся в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, является более сложной, чем статическая среда в задаче о бандите.

В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением.

При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием.

Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.

21.08.2023


Подписаться в Telegram



Net&IT

Nature Electronics: Изменение памяти дает новые вычислительные возможности
Nature Electronics: Изменение памяти дает новые вычислительные возможности

Ученые Рочестерского университета разработали ...

Nature: 2D-материал изменяет форму 3D-электроники для искусственного интеллекта
Nature: 2D-материал изменяет форму 3D-электроники для искусственного интеллекта

Многофункциональные компьютерные чипы эволюцио...

Началась регистрация на конкурс «Битва искусственных интеллектов»
Началась регистрация на конкурс «Битва искусственных интеллектов»

Стартовал отборочный этап Международного техно...

ИИ помогает математикам находить закономерности
ИИ помогает математикам находить закономерности

Применение машинного обучения для поиска ...

Scientific Reports: Борьба с недоверием в Интернете может быть неэффективной
Scientific Reports: Борьба с недоверием в Интернете может быть неэффективной

Новое исследование, проведенное Университетом ...

JRCS: ChatGPT перегружает пользователей выбором
JRCS: ChatGPT перегружает пользователей выбором

За последние несколько лет в области...

Искусственный интеллект может превзойти человеческий мозг
Искусственный интеллект может превзойти человеческий мозг

Ощупывание кошачьей шерсти может дать некотору...

Нейронные сети в опасности: как злоумышленники могут запутать ИИ
Нейронные сети в опасности: как злоумышленники могут запутать ИИ

Большинство искусственных интеллектуальных сис...

ChatGPT почти такой же хороший диагност, как доктор Хаус
ChatGPT почти такой же хороший диагност, как доктор Хаус

Чат-бот с искусственным интеллектом ChatG...

QS&T: Ученые создали самый точный метод управления квантовыми компьютерами
QS&T: Ученые создали самый точный метод управления квантовыми компьютерами

С помощью лазерного излучения исследователи ра...

New Phytologist: ИИ поможет распознавать аллергенную пыльцу
New Phytologist: ИИ поможет распознавать аллергенную пыльцу

Новая система, сочетающая в себе быстрое ...

Российские игры покоряют мир: Atomic Heart заняла первое место на Steam
Российские игры покоряют мир: Atomic Heart заняла первое место на Steam

В этом году российская игровая индустрия продо...

HV&I: ChatGPT помогает выявлять фейки о вакцинации
HV&I: ChatGPT помогает выявлять фейки о вакцинации

Чат-бот ChatGPT может помочь увеличить количес...

Те, у кого нет AR-очков, уязвимы перед теми, у кого они есть
Те, у кого нет AR-очков, уязвимы перед теми, у кого они есть

Тот, кто носит очки дополненной реальност...

Nature: Научная группа разработала критерии определения сознания ИИ
Nature: Научная группа разработала критерии определения сознания ИИ

В этом может помочь контрольный список, состав...

JAMA Oncology: ChatGPT еще не готов заменить врачей-онкологов
JAMA Oncology: ChatGPT еще не готов заменить врачей-онкологов

Когда исследователи попросили чатбот назначить...

Computers in Human Behavior: Социальные сети не провоцируют депрессию у детей
Computers in Human Behavior: Социальные сети не провоцируют депрессию у детей

Дети действительно проводят много времени в&nb...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Nature Geoscience: Ученые возвестили начало лунного антропоцена
Nature Geoscience: Ученые возвестили начало лунного антропоцена
NeuroImage: Найдено объяснение разного уровня эритроцитов в крови новорожденных
NeuroImage: Найдено объяснение разного уровня эритроцитов в крови новорожденных
PLOS ONE: Разработана система для предотвращения потери природных ресурсов
PLOS ONE: Разработана система для предотвращения потери природных ресурсов
Хирургия полезна для некоторых детей с легким нарушением дыхания во сне
Хирургия полезна для некоторых детей с легким нарушением дыхания во сне
PLOS ONE: Сойки и вороны по-разному реагируют на появление конкурентов
PLOS ONE: Сойки и вороны по-разному реагируют на появление конкурентов
Исследователи составили карту воздействия кетамина на мозг
Исследователи составили карту воздействия кетамина на мозг
Мозг новорожденных только кажется недоразвитым по сравнению с другими приматами
Мозг новорожденных только кажется недоразвитым по сравнению с другими приматами
PNAS: Есть ли признаки жизни на холодной луне Сатурна?
PNAS: Есть ли признаки жизни на холодной луне Сатурна?
Исследование показало, как важный белок сбалансировал клеточные мембраны
Исследование показало, как важный белок сбалансировал клеточные мембраны
AJT: Старые органы ускоряют старение получателей трансплантатов
AJT: Старые органы ускоряют старение получателей трансплантатов
Ученые предложили собирать воду из воздуха с помощью солнечной энергии
Ученые предложили собирать воду из воздуха с помощью солнечной энергии
В Science Advances опубликовали новые сведения о гибели динозавров
В Science Advances опубликовали новые сведения о гибели динозавров
JI: В-клетки вырабатывают антитела, которые подавляют аутоиммунный патогенез
JI: В-клетки вырабатывают антитела, которые подавляют аутоиммунный патогенез
Nature Comm: Робот, созданный по образу улитки, соберет микропластик в океане
Nature Comm: Робот, созданный по образу улитки, соберет микропластик в океане
Соленые иммунные клетки в мозге связаны с деменцией, вызванной гипертонией
Соленые иммунные клетки в мозге связаны с деменцией, вызванной гипертонией

Новости компаний, релизы

НАИРИТ объявит итоги Всероссийского инновационного конкурса 21 февраля
НАИРИТ объявит итоги Всероссийского инновационного конкурса 21 февраля
«Инструменты инновационного развития»
«Инструменты инновационного развития»
3 причины перехода с печатной рекламы на цифровую
3 причины перехода с печатной рекламы на цифровую
Виды резервирования серверов для задач АСУ ТП
Виды резервирования серверов для задач АСУ ТП
Выбор клиники и лечащего врача с помощью специализированного сервиса
Выбор клиники и лечащего врача с помощью специализированного сервиса