![]() |
Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение. Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal. Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов. Хотя использование квантовой интерференции фотонов не является В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением. При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением. В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием. Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением. 21.08.2023 |
Net&IT
![]() | |
Фотоны вместо битов: ученые придумали новый способ защиты данных | |
Ученые из Пензенского государственного ун... |
![]() | |
Сила света: ученые открыли новый способ хранения информации | |
Ученые из Санкт-Петербургского государств... |
![]() | |
Картинка в фокусе: ученые из Пензы научили нейросеть исправлять фото | |
Исследователи из Пензенского государствен... |
![]() | |
ИИ после ChatGPT: куда движется искусственный интеллект | |
В журнале Engineering недавно вышла статья, гд... |
![]() | |
Индивидуальный подход в облаке: тренды 2025 года | |
В 2025 году бизнес в России предъявляет н... |
![]() | |
Облака под замком: как защитить данные в эпоху цифровых угроз | |
Международный облачный провайдер Serverspace п... |
![]() | |
Машины, которые видят, слышат и создают: как ИИ меняет реальность | |
В последние десятилетия технологии сильно изме... |
![]() | |
Банки, мошенники и ИИ: как ученые научили нейросети думать на два уровня | |
Ученые придумали новый способ обучать нейронны... |
![]() | |
Облака на заказ: как бизнес находит идеальные IT-решения | |
В 2025 году крупный и средний бизнес все&... |
![]() | |
ИИ не создает неравенство — он учится ему у нас | |
Исследователи говорят, что предвзятость И... |
![]() | |
Меньше затрат, больше возможностей: как облака помогают бизнесу расти | |
Облачные технологии помогают компаниям быстро ... |
![]() | |
Казак, любовь и политика: как Кирша изменил историю России | |
Сайберия Нова начала работу над дополнени... |
![]() | |
Университет Иннополис создал инструмент для контроля интеллектуальных активов | |
Информационная система для управления рез... |
![]() | |
ИИ в белом халате: Neuromed AI сдал экзамен для кардиологов и онкологов | |
Чат-бот Neuromed AI, созданный учеными Сеченов... |
![]() | |
Отключи интернет — почувствуй себя лучше: как два часа в день меняют жизнь | |
Месячное исследование показало: если мень... |
![]() | |
GPT PHI-4 в деле: автоматизация облачных серверов стала проще | |
Международный облачный провайдер Serverspace, ... |
![]() | |
«Смута» заговорит по-новому: финальное обновление и свежие треки | |
Сайберия Нова выпускает финальное обновление д... |
![]() | |
Как получить инструмент будущих инженеров бесплатно, если ты студент | |
Студенческая версия программы ГАММА от ко... |
![]() | |
Удаленка навсегда: как бизнес адаптируется к новым реалиям | |
Тренд на цифровизацию и удаленную ра... |
![]() | |
Ритейл на скорости: почему серверы стали must-have для крупных сетей | |
Международный облачный провайдер и систем... |
![]() | |
Облака над Средней Азией: как регион становится IT-гигантом | |
Средняя Азия активно развивает IT-сферу и ... |
![]() | |
ИИ, которому можно доверять: ACHILLES объединяет технологии, этику и экологию | |
Проект ACHILLES решает самые сложные проблемы ... |
![]() | |
ИИ знает, кем ты станешь: как соцсети помогают выбрать профессию | |
Ученые из Санкт-Петербургского государств... |
![]() | |
Квантовый щит: физика меняет правила игры в цифровой безопасности | |
В цифровом мире безопасность связи &mdash... |
![]() | |
Риски квантовой эры: как защитить интернет от новых угроз | |
Квантовые вычисления больше не являются д... |
![]() | |
Новые технологии ПГУ изменят инженерное дело, строительство и машиностроение | |
В Пензенском государственном университете созд... |
![]() | |
Будущее наступило: как нейроморфные технологии могут изменить мир | |
Нейроморфные вычисления — область, ... |
![]() | |
Представлены новейшие разработки в области квантовых вычислений | |
Квантовые вычисления находятся в авангард... |
![]() | |
TheInnovator: Роботы с искусственным интеллектом изменят рынок труда | |
Если компании и ИИ-стартапы, стремящиеся ... |
![]() | |
В КАИ оснащают беспилотники компьютерным зрением | |
Ученые университета разработали специальные пр... |