five

lihaoxin2020/r1-mmlu_pro-r1-ki-ablation

收藏
Hugging Face2026-03-27 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/lihaoxin2020/r1-mmlu_pro-r1-ki-ablation
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: biology features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2279209 num_examples: 200 download_size: 2198303 dataset_size: 2279209 - config_name: chemistry features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 3237316 num_examples: 200 download_size: 3144281 dataset_size: 3237316 - config_name: computer science features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2917331 num_examples: 200 download_size: 2827102 dataset_size: 2917331 - config_name: engineering features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 4695793 num_examples: 200 download_size: 4579491 dataset_size: 4695793 - config_name: health features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2725353 num_examples: 200 download_size: 2632625 dataset_size: 2725353 - config_name: math features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 2286898 num_examples: 200 download_size: 2214113 dataset_size: 2286898 - config_name: physics features: - name: native_id dtype: int64 - name: data list: - name: content dtype: string - name: role dtype: string - name: raw_response struct: - name: logprobs dtype: 'null' - name: text dtype: string - name: tokens dtype: 'null' - name: usage dtype: 'null' - name: raw_text dtype: string - name: knowledge_pieces list: string - name: domain_adjacent_ki list: string - name: shuffled_ki list: string splits: - name: train num_bytes: 3234885 num_examples: 200 download_size: 3140486 dataset_size: 3234885 configs: - config_name: biology data_files: - split: train path: biology/train-* - config_name: chemistry data_files: - split: train path: chemistry/train-* - config_name: computer science data_files: - split: train path: computer science/train-* - config_name: engineering data_files: - split: train path: engineering/train-* - config_name: health data_files: - split: train path: health/train-* - config_name: math data_files: - split: train path: math/train-* - config_name: physics data_files: - split: train path: physics/train-* ---

数据集信息: - 配置名称:生物学(biology) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:2279209,样本数量:200 下载大小:2198303,数据集总大小:2279209 - 配置名称:化学(chemistry) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:3237316,样本数量:200 下载大小:3144281,数据集总大小:3237316 - 配置名称:计算机科学(computer science) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:2917331,样本数量:200 下载大小:2827102,数据集总大小:2917331 - 配置名称:工程学(engineering) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:4695793,样本数量:200 下载大小:4579491,数据集总大小:4695793 - 配置名称:健康科学(health) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:2725353,样本数量:200 下载大小:2632625,数据集总大小:2725353 - 配置名称:数学(math) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:2286898,样本数量:200 下载大小:2214113,数据集总大小:2286898 - 配置名称:物理学(physics) 特征字段: - 原生ID(native_id):数据类型为int64 - 数据(data):列表类型,包含以下子字段: - 内容(content):字符串类型 - 角色(role):字符串类型 - 原始响应(raw_response):结构体类型,包含以下子字段: - 对数概率(logprobs):空值(null) - 文本(text):字符串类型 - Token(tokens):空值(null) - 使用量(usage):空值(null) - 原始文本(raw_text):字符串类型 - 知识片段(knowledge_pieces):字符串列表类型 - 领域相邻知识片段(domain_adjacent_ki):字符串列表类型 - 打乱的知识片段(shuffled_ki):字符串列表类型 数据划分: - 划分名称:训练集(train),字节数:3234885,样本数量:200 下载大小:3140486,数据集总大小:3234885 配置项: - 配置名称:生物学(biology),数据文件: - 划分方式:训练集(train),路径:biology/train-* - 配置名称:化学(chemistry),数据文件: - 划分方式:训练集(train),路径:chemistry/train-* - 配置名称:计算机科学(computer science),数据文件: - 划分方式:训练集(train),路径:computer science/train-* - 配置名称:工程学(engineering),数据文件: - 划分方式:训练集(train),路径:engineering/train-* - 配置名称:健康科学(health),数据文件: - 划分方式:训练集(train),路径:health/train-* - 配置名称:数学(math),数据文件: - 划分方式:训练集(train),路径:math/train-* - 配置名称:物理学(physics),数据文件: - 划分方式:训练集(train),路径:physics/train-*
提供机构:
lihaoxin2020
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作