PokerBench|德州扑克数据集|决策优化数据集
收藏PokerBench 数据集概述
数据集简介
- 数据集名称: PokerBench
- 数据集链接: https://huggingface.co/datasets/RZ412/PokerBench
- 数据集用途: 用于训练和评估语言模型在无限注德州扑克中的决策能力。
数据集内容
- 数据类型: 包含自然语言游戏场景和由求解器计算的最优决策。
- 数据格式: JSON 和 CSV 格式。
- JSON 文件: 包含自然语言提示(instruction)和最优决策(output)。
- CSV 文件: 包含生成 JSON 文件的结构化游戏信息。
数据集结构
JSON 文件
- instruction: 详细描述游戏场景的自然语言文本,包括游戏状态、玩家位置、动作和公共牌。
- output: 针对描述场景的最优决策,可能包括 check、fold、call 或 bet/raise。
CSV 文件
Pre-Flop CSV
- prev_line: 当前决策点之前的玩家动作序列。
- hero_pos: 做出决策的玩家位置。
- hero_holding: 玩家的底牌。
- correct_decision: 玩家的最优决策。
- num_players: 决策点时仍在牌局中的玩家数量。
- num_bets: 到目前为止的投注轮次/动作数量。
- available_moves: 玩家可以做出的可能决策。
- pot_size: 决策点时的当前底池大小。
Post-Flop CSV
- preflop_action: 导致翻牌的玩家动作序列。
- board_flop: 翻牌的三张公共牌。
- board_turn: 转牌(如果可用)。
- board_river: 河牌(如果可用)。
- aggressor_position: 最近攻击者的位置。
- postflop_action: 翻牌后的玩家动作序列。
- evaluation_at: 决策评估的街(Flop、Turn 或 River)。
- available_moves: 玩家可以做出的可能决策。
- pot_size: 决策点时的当前底池大小。
- hero_position: 做出决策的玩家位置。
- holding: 玩家的底牌。
- correct_decision: 玩家的最优决策。
文件描述
Pre-Flop 数据集
- preflop_60k_train_set_game_scenario_information.csv: 60,000 个训练示例的结构化游戏信息。
- preflop_60k_train_set_prompt_and_label.json: 60,000 个训练示例的自然语言提示和决策。
- preflop_1k_test_set_game_scenario_information.csv: 1,000 个测试示例的结构化游戏信息。
- preflop_1k_test_set_prompt_and_label.json: 1,000 个测试示例的自然语言提示和决策。
Post-Flop 数据集
- postflop_500k_train_set_game_scenario_information.csv: 500,000 个训练示例的结构化游戏信息。
- postflop_500k_train_set_prompt_and_label.json: 500,000 个训练示例的自然语言提示和决策。
- postflop_10k_test_set_game_scenario_information.csv: 10,000 个测试示例的结构化游戏信息。
- postflop_10k_test_set_prompt_and_label.json: 10,000 个测试示例的自然语言提示和决策。
使用说明
- JSON 文件: 直接用于自然语言提示和决策的训练和评估。
- CSV 文件: 用于更详细的分析或生成自定义提示。

中国区域地面气象要素驱动数据集 v2.0(1951-2024)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。
国家青藏高原科学数据中心 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
长基线雷电密度24小时分布图
长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成,长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生,本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度,并叠加探测范围内的地理信息进行制图,长基线雷电密度24小时分布图时间间隔为24小时,每日8时(北京时)分别生成一张,图片以JPEG方式存储,可用于每24小时闪电密度分布直观显示,供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。
国家空间科学数据中心 收录
Set14
Set14 数据集是由 14 张图像组成的数据集,通常用于测试图像超分辨率模型的性能。
OpenDataLab 收录
lmarena-ai/arena-human-preference-100k
这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。
hugging_face 收录