Ученые разработали систему для решения проблемы многорукого бандита

Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение.

Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal.

Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы считают, что данное исследование «впервые связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его в динамической среде». Задачи обучения с подкреплением обычно ставятся в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, является более сложной, чем статическая среда в задаче о бандите.

В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением.

При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием.

Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением.

21.08.2023


Подписаться в Telegram



Net&IT

Фотоны вместо битов: ученые придумали новый способ защиты данных
Фотоны вместо битов: ученые придумали новый способ защиты данных

Ученые из Пензенского государственного ун...

Сила света: ученые открыли новый способ хранения информации
Сила света: ученые открыли новый способ хранения информации

Ученые из Санкт-Петербургского государств...

ИИ после ChatGPT: куда движется искусственный интеллект
ИИ после ChatGPT: куда движется искусственный интеллект

В журнале Engineering недавно вышла статья, гд...

Индивидуальный подход в облаке: тренды 2025 года
Индивидуальный подход в облаке: тренды 2025 года

В 2025 году бизнес в России предъявляет н...

Облака под замком: как защитить данные в эпоху цифровых угроз
Облака под замком: как защитить данные в эпоху цифровых угроз

Международный облачный провайдер Serverspace п...

Машины, которые видят, слышат и создают: как ИИ меняет реальность
Машины, которые видят, слышат и создают: как ИИ меняет реальность

В последние десятилетия технологии сильно изме...

Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня
Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня

Ученые придумали новый способ обучать нейронны...

Облака на заказ: как бизнес находит идеальные IT-решения
Облака на заказ: как бизнес находит идеальные IT-решения

В 2025 году крупный и средний бизнес все&...

ИИ не создает неравенство — он учится ему у нас
ИИ не создает неравенство — он учится ему у нас

Исследователи говорят, что предвзятость И...

Меньше затрат, больше возможностей: как облака помогают бизнесу расти
Меньше затрат, больше возможностей: как облака помогают бизнесу расти

Облачные технологии помогают компаниям быстро ...

Казак, любовь и политика: как Кирша изменил историю России
Казак, любовь и политика: как Кирша изменил историю России

Сайберия Нова начала работу над дополнени...

GPT PHI-4 в деле: автоматизация облачных серверов стала проще
GPT PHI-4 в деле: автоматизация облачных серверов стала проще

Международный облачный провайдер Serverspace, ...

«Смута» заговорит по-новому: финальное обновление и свежие треки
«Смута» заговорит по-новому: финальное обновление и свежие треки

Сайберия Нова выпускает финальное обновление д...

Удаленка навсегда: как бизнес адаптируется к новым реалиям
Удаленка навсегда: как бизнес адаптируется к новым реалиям

Тренд на цифровизацию и удаленную ра...

Ритейл на скорости: почему серверы стали must-have для крупных сетей
Ритейл на скорости: почему серверы стали must-have для крупных сетей

Международный облачный провайдер и систем...

Облака над Средней Азией: как регион становится IT-гигантом
Облака над Средней Азией: как регион становится IT-гигантом

Средняя Азия активно развивает IT-сферу и ...

ИИ знает, кем ты станешь: как соцсети помогают выбрать профессию
ИИ знает, кем ты станешь: как соцсети помогают выбрать профессию

Ученые из Санкт-Петербургского государств...

Риски квантовой эры: как защитить интернет от новых угроз
Риски квантовой эры: как защитить интернет от новых угроз

Квантовые вычисления больше не являются д...

Представлены новейшие разработки в области квантовых вычислений
Представлены новейшие разработки в области квантовых вычислений

Квантовые вычисления находятся в авангард...

TheInnovator: Роботы с искусственным интеллектом изменят рынок труда
TheInnovator: Роботы с искусственным интеллектом изменят рынок труда

Если компании и ИИ-стартапы, стремящиеся ...

В КАИ оснащают беспилотники компьютерным зрением
В КАИ оснащают беспилотники компьютерным зрением

Ученые университета разработали специальные пр...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

Кадры решают все: кто и за сколько работает в нефтегазовой отрасли
Кадры решают все: кто и за сколько работает в нефтегазовой отрасли
Circulation: Порок сердца у ребенка связан с раком у матери
Circulation: Порок сердца у ребенка связан с раком у матери
Дыши глубже: новый способ производства перекиси водорода из воздуха
Дыши глубже: новый способ производства перекиси водорода из воздуха
Беспилотники, AI и маркетплейсы: чем живет агробизнес сегодня
Беспилотники, AI и маркетплейсы: чем живет агробизнес сегодня
Субнептуны: как планеты выживают в огненном кольце звезд
Субнептуны: как планеты выживают в огненном кольце звезд
Фиброз как на ладони: ИИ ускоряет диагностику сердца
Фиброз как на ладони: ИИ ускоряет диагностику сердца
Красное свечение, которое не гаснет: прорыв в световых технологиях
Красное свечение, которое не гаснет: прорыв в световых технологиях
Питание через иглы: как ученые создают умные удобрения
Питание через иглы: как ученые создают умные удобрения
Буровая установка на лыжах: в Татарстане ученые ускорили добычу нефти
Буровая установка на лыжах: в Татарстане ученые ускорили добычу нефти
Точка кипения: почему никелевые аккумуляторы могут быть опасны
Точка кипения: почему никелевые аккумуляторы могут быть опасны
Открытие, которое притягивает: новая технология производства магнитов
Открытие, которое притягивает: новая технология производства магнитов
Невидимый враг в тарелке: чем опасны микотоксины
Невидимый враг в тарелке: чем опасны микотоксины
Умные бактерии: как микрофлора кишечника управляет нашим мозгом
Умные бактерии: как микрофлора кишечника управляет нашим мозгом
Природа как лекарство: как деревья и горы успокаивают боль
Природа как лекарство: как деревья и горы успокаивают боль
Небесный дуэт: две звезды, которые перевернули представление о радиосигналах
Небесный дуэт: две звезды, которые перевернули представление о радиосигналах

Новости компаний, релизы

ЦОДы в центре внимания: встречаемся в Москве весной 2025
Гонки без границ: как студенты борются за титул лучшего симрейсера
Медицинские инновации: как стать архитектором будущего здравоохранения
Более 200 нижегородцев посетили научные кинопоказы честь Дня российской науки
Протоны, нейтроны и наночастицы: как наука помогает онкологии