Ученые разработали систему для решения проблемы многорукого бандита

Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение.

Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal.

Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы считают, что данное исследование «впервые связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его в динамической среде». Задачи обучения с подкреплением обычно ставятся в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, является более сложной, чем статическая среда в задаче о бандите.

В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением.

При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием.

Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.

21.08.2023

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

ИИ анализирует цветение злаков без помощи человека
ИИ анализирует цветение злаков без помощи человека

Ученые создали алгоритм, который учится сам&nb...

Социальный провал: как ИИ путает разговор с переходом улицы
Социальный провал: как ИИ путает разговор с переходом улицы

Оказывается, люди пока разбираются в соци...

Создана нейросеть для тестирования интерфейсов: как это работает
Создана нейросеть для тестирования интерфейсов: как это работает

Каждый день миллионы людей покупают товары, оп...

Диагноз от ChatGPT: почти как у терапевта, но без очереди
Диагноз от ChatGPT: почти как у терапевта, но без очереди

Использование генеративного ИИ для д...

Облака вместо складов: как ритейл выжимает максимум из цифры
Облака вместо складов: как ритейл выжимает максимум из цифры

Владимир Лебедев, директор по развитию би...

ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?
ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?

Если вы из 1,5 миллиарда пользовател...

ИИ на акустических волнах: тише едешь — дальше будешь
ИИ на акустических волнах: тише едешь — дальше будешь

Искусственный интеллект уже меняет нашу ж...

Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть
Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть

Эксперт по цифровым стратегиям Джулио Тос...

Море данных: физики доверили расчет жидкости ИИ
Море данных: физики доверили расчет жидкости ИИ

Искусственный интеллект уже изменил общес

Не биты, а кубиты: квантовые компьютеры играют в другой лиге
Не биты, а кубиты: квантовые компьютеры играют в другой лиге

Современные компьютеры, от смартфонов до&...

Квантовый мост: ученые соединили микроволны и свет в одном чипе
Квантовый мост: ученые соединили микроволны и свет в одном чипе

Физики из Гарвардской школы инженерии и&n...

40 000 точек вместо 12: наука усовершенствует слежение за взглядом
40 000 точек вместо 12: наука усовершенствует слежение за взглядом

Ученые из Университета Аризоны придумали,...

ИИ наступает: какие профессии выживут, а какие сдадут позиции
ИИ наступает: какие профессии выживут, а какие сдадут позиции

С каждым годом искусственный интеллект станови...

Защита на опережение: почему мир переходит на новое шифрование HQC
Защита на опережение: почему мир переходит на новое шифрование HQC

Национальный институт стандартов и технол...

Не просто облака, а целая экосистема: бизнес переосмыслил IT
Не просто облака, а целая экосистема: бизнес переосмыслил IT

Российский облачный рынок не просто расте...

Фотоны вместо битов: ученые придумали новый способ защиты данных
Фотоны вместо битов: ученые придумали новый способ защиты данных

Ученые из Пензенского государственного ун...

Сила света: ученые открыли новый способ хранения информации
Сила света: ученые открыли новый способ хранения информации

Ученые из Санкт-Петербургского государств...

ИИ после ChatGPT: куда движется искусственный интеллект
ИИ после ChatGPT: куда движется искусственный интеллект

В журнале Engineering недавно вышла статья, гд...

Индивидуальный подход в облаке: тренды 2025 года
Индивидуальный подход в облаке: тренды 2025 года

В 2025 году бизнес в России предъявляет н...

Облака под замком: как защитить данные в эпоху цифровых угроз
Облака под замком: как защитить данные в эпоху цифровых угроз

Международный облачный провайдер Serverspace п...

Машины, которые видят, слышат и создают: как ИИ меняет реальность
Машины, которые видят, слышат и создают: как ИИ меняет реальность

В последние десятилетия технологии сильно изме...

Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня
Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня

Ученые придумали новый способ обучать нейронны...

Облака на заказ: как бизнес находит идеальные IT-решения
Облака на заказ: как бизнес находит идеальные IT-решения

В 2025 году крупный и средний бизнес все&...

ИИ не создает неравенство — он учится ему у нас
ИИ не создает неравенство — он учится ему у нас

Исследователи говорят, что предвзятость И...

Поиск на сайте

ТОП - Новости мира, инновации

Если NFT побывал в руках звезды, это уже не просто пиксели
Если NFT побывал в руках звезды, это уже не просто пиксели
IJOS: Какие проблемы с прикусом можно исправить каппами
IJOS: Какие проблемы с прикусом можно исправить каппами
В ИЯФ СО РАН разрабатывают новый коллайдер ВЭПП-6
В ИЯФ СО РАН разрабатывают новый коллайдер ВЭПП-6
Биология 2.0: инструкция по сборке будущего
Биология 2.0: инструкция по сборке будущего
Ученые выяснили, как помочь почве без потери урожая
Ученые выяснили, как помочь почве без потери урожая
Диссонанс в космосе: физики нашли источник «фальшивых» колебаний черных дыр
Диссонанс в космосе: физики нашли источник «фальшивых» колебаний черных дыр
Лекарства без брака: науке пора перестать мешать компоненты в блендере
Лекарства без брака: науке пора перестать мешать компоненты в блендере
Как пуповинная кровь помогает предсказать болезни ребенка
Как пуповинная кровь помогает предсказать болезни ребенка
ИИ помогает точнее выявлять насилие над детьми в больницах
ИИ помогает точнее выявлять насилие над детьми в больницах
Найден способ перезаписывать данные без электричества
Найден способ перезаписывать данные без электричества
Как люди пережили ледниковый период в Казахстане
Как люди пережили ледниковый период в Казахстане
Не все «зомби-клетки» одинаково опасны: ученые нашли способ их сортировать
Не все «зомби-клетки» одинаково опасны: ученые нашли способ их сортировать
Испытание солнцем: вольфрам держит удар термоядерной плазмы
Испытание солнцем: вольфрам держит удар термоядерной плазмы
Запутанность без шума: ученые нашли способ очистить квантовую связь
Запутанность без шума: ученые нашли способ очистить квантовую связь
Социальное обучение без розовых очков: как мы перенимаем чужой опыт
Социальное обучение без розовых очков: как мы перенимаем чужой опыт

Новости компаний, релизы

Крипта для людей: почему сложные сервисы теряют пользователей
«Точки роста» в действии: как школы Симферопольского района перестали быть скучными
На одной волне: университет и госструктура усиливают IT-суверенитет
Оперировать в VR: студенты придумали симулятор для хирургов
Ловушка с пропеллером: как дроны помогают якутским экоинспекторам