lihaoxin2020/r1-mmlu_pro-r1-ki-ablation

Name: lihaoxin2020/r1-mmlu_pro-r1-ki-ablation
Creator: lihaoxin2020
Published: 2026-03-27 06:38:28
License: 暂无描述

Hugging Face2026-03-27 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/lihaoxin2020/r1-mmlu_pro-r1-ki-ablation

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: biology features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2279209 num_examples: 200 download_size: 2198303 dataset_size: 2279209 - config_name: chemistry features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 3237316 num_examples: 200 download_size: 3144281 dataset_size: 3237316 - config_name: computer science features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2917331 num_examples: 200 download_size: 2827102 dataset_size: 2917331 - config_name: engineering features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 4695793 num_examples: 200 download_size: 4579491 dataset_size: 4695793 - config_name: health features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2725353 num_examples: 200 download_size: 2632625 dataset_size: 2725353 - config_name: math features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2286898 num_examples: 200 download_size: 2214113 dataset_size: 2286898 - config_name: physics features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 3234885 num_examples: 200 download_size: 3140486 dataset_size: 3234885 configs: - config_name: biology data_files: - split: train path: biology/train-* - config_name: chemistry data_files: - split: train path: chemistry/train-* - config_name: computer science data_files: - split: train path: computer science/train-* - config_name: engineering data_files: - split: train path: engineering/train-* - config_name: health data_files: - split: train path: health/train-* - config_name: math data_files: - split: train path: math/train-* - config_name: physics data_files: - split: train path: physics/train-* ---

数据集信息： - 配置名称：生物学（biology）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：2279209，样本数量：200 下载大小：2198303，数据集总大小：2279209 - 配置名称：化学（chemistry）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：3237316，样本数量：200 下载大小：3144281，数据集总大小：3237316 - 配置名称：计算机科学（computer science）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：2917331，样本数量：200 下载大小：2827102，数据集总大小：2917331 - 配置名称：工程学（engineering）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：4695793，样本数量：200 下载大小：4579491，数据集总大小：4695793 - 配置名称：健康科学（health）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：2725353，样本数量：200 下载大小：2632625，数据集总大小：2725353 - 配置名称：数学（math）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：2286898，样本数量：200 下载大小：2214113，数据集总大小：2286898 - 配置名称：物理学（physics）特征字段： - 原生ID（native_id）：数据类型为int64 - 数据（data）：列表类型，包含以下子字段： - 内容（content）：字符串类型 - 角色（role）：字符串类型 - 原始响应（raw_response）：结构体类型，包含以下子字段： - 对数概率（logprobs）：空值（null） - 文本（text）：字符串类型 - Token（tokens）：空值（null） - 使用量（usage）：空值（null） - 原始文本（raw_text）：字符串类型 - 知识片段（knowledge_pieces）：字符串列表类型 - 领域相邻知识片段（domain_adjacent_ki）：字符串列表类型 - 打乱的知识片段（shuffled_ki）：字符串列表类型数据划分： - 划分名称：训练集（train），字节数：3234885，样本数量：200 下载大小：3140486，数据集总大小：3234885 配置项： - 配置名称：生物学（biology），数据文件： - 划分方式：训练集（train），路径：biology/train-* - 配置名称：化学（chemistry），数据文件： - 划分方式：训练集（train），路径：chemistry/train-* - 配置名称：计算机科学（computer science），数据文件： - 划分方式：训练集（train），路径：computer science/train-* - 配置名称：工程学（engineering），数据文件： - 划分方式：训练集（train），路径：engineering/train-* - 配置名称：健康科学（health），数据文件： - 划分方式：训练集（train），路径：health/train-* - 配置名称：数学（math），数据文件： - 划分方式：训练集（train），路径：math/train-* - 配置名称：物理学（physics），数据文件： - 划分方式：训练集（train），路径：physics/train-*

提供机构：

lihaoxin2020

5,000+

优质数据集

54 个

任务类型

进入经典数据集