Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение. Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal. Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов. Хотя использование квантовой интерференции фотонов не является В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением. При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением. В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием. Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением. 21.08.2023 |
Net&IT
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров | |
Студенты Университета управления ТИСБИ в ... |
Nature: Созданные ИИ тексты будут размечаться водяными знаками | |
Исследователи из лондонской лаборатории G... |
Российская игра о наполеоновских войнах станет бесплатной | |
У российской аудитории растет интерес к в |
Ученые МГУ с коллегами предложили новый подход для создания квантового интернета | |
Создать устройство для гибридных квантовы... |
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев» | |
В Новосибирском государственном университете з... |
Российские ученые создали расчетные модули для системы инженерного анализа | |
Ученые из нескольких научных организаций ... |
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме | |
Технологические корпорации всё чаще обращ... |
По событиям Смутного времени создадут игру — интерактивную новеллу | |
Компания Сайберия Нова и создатели игры С... |
JCM: ИИ быстрее человека определяет устойчивость бактерий к антибиотикам | |
Искусственный интеллект для поиска бактер... |
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому | |
В исследовании Имперского колледжа Лондона люд... |
В России создана нейросеть для оценки отторжения пересаженной почки | |
ИИ-модель, которая с помощью компьютерног... |
UIST: Приложение для смартфона делает захват движений тела в реальном времени | |
Инженеры Северо-Западного университета создали... |
PNAS Nexus: Разработана система мониторинга усталости рабочих на производстве | |
Новая разработка, система датчиков и маши... |
В СПбГУ с помощью ИИ создали систему распознавания нейротропных препаратов | |
Новую систему для скрининга нейротропных ... |
NatPhys: Поиск ошибок в процессоре поможет создать надежный квантовый компьютер | |
Чтобы достичь выдающихся результатов, квантовы... |
Новые ИИ-модели нагрева плазмы исправляют вычисления термоядерных исследований | |
Новые модели искусственного интеллекта для&nbs... |
ACMTAC: Новые приложения позволят слепым людям ориентироваться в помещениях | |
Два новых приложения помогут слепым людям орие... |
Nature Communications: Ученые придумали способ ускорить разработку лекарств | |
Способ улучшить квантовые компьютеры для ... |
PRR: Новые оптические устройства смогут преодолеть ограничения хранения данных | |
Поскольку наш цифровой мир создаёт о... |
В МФТИ создали ПО для нефтяников и золотодобытчиков | |
Сотрудники МФТИ предложили цифровое решение, к... |
В КФУ создали программу для определения свойств многокомпонентных материалов | |
Учёные вуза с помощью ИИ разработали... |
В России создали систему коррекции волнового фронта для квантовой связи | |
Ученые МТУСИ и ИДГ РАН разработ... |
MIT: Новый протокол безопасности защищает данные в облаке от злоумышленников | |
Модели глубокого обучения используются в ... |
Эксперт объяснил, как ИИ меняет творческий процесс в индустрии моды | |
Александр Бутаков, продюсер и специалист ... |
Студенты КНИТУ создали двуязычного ИИ-бота для туристов | |
Студенты КНИТУ создали туристического бота с&n... |
NatComm: С помощью ИИ найдено лучшее решение для хранения энергии | |
Найти иголку в стоге сена — пр... |
ACS Photonics: Разработаны улучшенные очки дополненной реальности | |
Дополненная реальность накладывает цифровые из... |
Journal of Consumer Affairs: Трекеры активности могут сформировать зависимость | |
Технологии для профилактики здоровья, так... |
Испытание лекарств на кардиотоксичность с помощью нейросетей предложили в МФТИ | |
Новый метод позволяет обнаружить потенциально ... |
В МТУСИ разработали метод машинного обучения для обнаружения фишинговых сайтов | |
Информационная безопасность веб-приложений&nbs... |