![]() |
Как игроку максимизировать выигрыш в игровых автоматах? Эта проблема вдохновляет на решение проблемы многорукого бандита — распространенной задачи обучения с подкреплением, в которой агенты делают выбор, чтобы получить вознаграждение. Недавно международная исследовательская группа под руководством Хироаки Синкавы из Токийского университета разработала расширенную схему фотонного обучения с подкреплением, которая позволяет перейти от статичной задачи о бандите к более сложной динамической среде. Исследование опубликовано 25 июля в журнале Intelligent Computing, a Science Partner Journal. Успех схемы зависит как от фотонной системы, повышающей качество обучения, так и от поддерживающего алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный алгоритм бандитского Q-обучения и подтвердили его эффективность с помощью численного моделирования. Они также протестировали свой алгоритм в параллельной архитектуре, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является предотвращение конфликтующих решений за счет использования квантовой интерференции фотонов. Хотя использование квантовой интерференции фотонов не является В данном исследовании рассматривается сетчатый мир, представляющий собой набор ячеек с различным вознаграждением. Каждый агент может двигаться вверх, вниз, влево или вправо и получать вознаграждение в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим ходом и местоположением. При моделировании в данном исследовании используется сетка 5 × 5 ячеек; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется „действием“, а правило, определяющее, как агент выбирает то или иное действие в каждом состоянии, называется „политикой“. Процесс принятия решений строится как сценарий задачи бандита, где каждая пара „состояние — действие“ рассматривается как игровой автомат, а изменения величины Q — значений пар „состояние — действие“ — считаются вознаграждением. В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения нацелен на эффективное и точное обучение оптимальному значению Q для каждой пары «состояние-действие» во всей среде. Поэтому агенту необходимо соблюдать баланс между „эксплуатацией“ знакомых пар с высокими значениями для ускорения обучения и „исследованием“ нечасто встречающихся пар для получения потенциально более высоких значений. В качестве политики используется алгоритм softmax — популярная модель, которая отлично справляется с подобным балансированием. Первоочередной задачей авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, в надежде, что ее добавление в предложенную ими схему поможет агентам избежать принятия противоречивых решений. В то же время они планируют разработать алгоритмы, позволяющие агентам действовать непрерывно, и применить свой алгоритм бандитского Q-обучения к более сложным задачам обучения с подкреплением. 21.08.2023 |
Net&IT
![]() | |
Nature Electronics: Изменение памяти дает новые вычислительные возможности | |
Ученые Рочестерского университета разработали ... |
![]() | |
Nature: 2D-материал изменяет форму 3D-электроники для искусственного интеллекта | |
Многофункциональные компьютерные чипы эволюцио... |
![]() | |
Началась регистрация на конкурс «Битва искусственных интеллектов» | |
Стартовал отборочный этап Международного техно... |
![]() | |
Наступает новая эра творческого партнерства в эпоху генеративного ИИ | |
Последние достижения в области генеративн... |
![]() | |
Ученые разрабатывают инструменты для использования ИИ в юридическом образовании | |
В то время как многие с опаской... |
![]() | |
Создан метод тонкой настройки модели ИИ на устройствах с ограниченными ресурсами | |
Персонализированные модели глубокого обучения ... |
![]() | |
Новая уязвимость процессора подвергает опасности виртуальные машины | |
В области облачных вычислений, то есть до... |
![]() | |
Разработан новый квантовый подход к безопасности облачных хранилищ данных | |
Распределенные облачные хранилища —... |
![]() | |
ACS Applied Energy Materials: Разработаны солнечные батареи для помещений | |
Так называемый Интернет вещей — от&... |
![]() | |
Ученые разработали энергоэффективный чип для искусственного интеллекта | |
Основная идея проста: в отличие от п... |
![]() | |
Patterns: Ученые выяснили, насколько этичным считают использование ИИ в мире | |
Для изучения глобального состояния этики ИИ&nb... |
![]() | |
ИИ помогает математикам находить закономерности | |
Применение машинного обучения для поиска ... |
![]() | |
Машинное обучение повысит эффективность исследований в химической инженерии | |
В распоряжении исследователей в области х... |
![]() | |
Контекстные подсказки помогают зрительной системе развивать новые возможности | |
Исследование психологов LMU показывает, что&nb... |
![]() | |
Scientific Reports: Борьба с недоверием в Интернете может быть неэффективной | |
Новое исследование, проведенное Университетом ... |
![]() | |
JRCS: ChatGPT перегружает пользователей выбором | |
За последние несколько лет в области... |
![]() | |
Искусственный интеллект может превзойти человеческий мозг | |
Ощупывание кошачьей шерсти может дать некотору... |
![]() | |
Нейронные сети в опасности: как злоумышленники могут запутать ИИ | |
Большинство искусственных интеллектуальных сис... |
![]() | |
ChatGPT почти такой же хороший диагност, как доктор Хаус | |
Чат-бот с искусственным интеллектом ChatG... |
![]() | |
QS&T: Ученые создали самый точный метод управления квантовыми компьютерами | |
С помощью лазерного излучения исследователи ра... |
![]() | |
New Phytologist: ИИ поможет распознавать аллергенную пыльцу | |
Новая система, сочетающая в себе быстрое ... |
![]() | |
Российские игры покоряют мир: Atomic Heart заняла первое место на Steam | |
В этом году российская игровая индустрия продо... |
![]() | |
HV&I: ChatGPT помогает выявлять фейки о вакцинации | |
Чат-бот ChatGPT может помочь увеличить количес... |
![]() | |
Университет Амстердама: ИИ поможет упорядочить данные о пациентах | |
80% всех данных о пациентах являются нест... |
![]() | |
Разработана система сортировки пациентов на основе ИИ по тяжести заболевания | |
Группа исследователей из Йельского универ... |
![]() | |
Те, у кого нет AR-очков, уязвимы перед теми, у кого они есть | |
Тот, кто носит очки дополненной реальност... |
![]() | |
Nature: Научная группа разработала критерии определения сознания ИИ | |
В этом может помочь контрольный список, состав... |
![]() | |
Технология обнаружения вредоносного ПО будет встроена в компьютерное «железо» | |
Представьте себе компьютер, работу которого не... |
![]() | |
JAMA Oncology: ChatGPT еще не готов заменить врачей-онкологов | |
Когда исследователи попросили чатбот назначить... |
![]() | |
Computers in Human Behavior: Социальные сети не провоцируют депрессию у детей | |
Дети действительно проводят много времени в&nb... |