Автор: Дарья Колмина
"Питерские заметки", 22.08.2023:
Задача максимизации выигрыша в игровых автоматах заставляет игроков размышлять над оптимальными стратегиями.
Эта задача также послужила основой для исследования многорукого бандита, популярной проблемы в области обучения с подкреплением, где агенты выбирают действия, нацеленные на получение награды.
Хироаки Синкава из Токийского университета возглавил международную команду исследователей, которая пришла к интересным выводам.
Они представили новый взгляд на фотонное обучение с подкреплением, который позволяет рассмотреть более динамичные сценарии, чем традиционные задачи бандита.
Основным инструментом в их исследовании стал модифицированный алгоритм бандитского Q-обучения.
Через численное моделирование исследователи продемонстрировали эффективность своего подхода.
Эта задача также послужила основой для исследования многорукого бандита, популярной проблемы в области обучения с подкреплением, где агенты выбирают действия, нацеленные на получение награды.
Хироаки Синкава из Токийского университета возглавил международную команду исследователей, которая пришла к интересным выводам.
Они представили новый взгляд на фотонное обучение с подкреплением, который позволяет рассмотреть более динамичные сценарии, чем традиционные задачи бандита.
Основным инструментом в их исследовании стал модифицированный алгоритм бандитского Q-обучения.
Через численное моделирование исследователи продемонстрировали эффективность своего подхода.
По материалам: spj.science.org