five

Cheat MAB

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/whitemech/markov-abstractions-code-ijcai22
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多臂老虎机问题,其中一个臂能提供更高的奖励,但更难以识别。实验结果是基于5次训练的平均值,并且每1.5万集进行一次评估。该数据集通过参数k进行规模调整,k的增加会提升领域复杂性。任务涉及的是带有探索策略的强化学习。

This dataset is a multi-armed bandit problem, where one arm yields higher rewards but is more difficult to identify. Experimental results are based on the average of 5 training runs, with evaluations conducted every 15,000 episodes. This dataset is scalable via the parameter k, where an increase in k elevates the complexity of the domain. The task involves reinforcement learning with exploration strategies.
提供机构:
Authors of the paper.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作