lihaoxin2020/ki-qwen-instruct-synthetic_1_stem_only-sft-temp0.6-on-mmlu_pro-0shot_cot-scillm-da553bdec9
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/lihaoxin2020/ki-qwen-instruct-synthetic_1_stem_only-sft-temp0.6-on-mmlu_pro-0shot_cot-scillm-da553bdec9
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: biology
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 3179579
num_examples: 199
download_size: 3080694
dataset_size: 3179579
- config_name: chemistry
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 6225828
num_examples: 197
download_size: 6112244
dataset_size: 6225828
- config_name: computer science
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 4218860
num_examples: 199
download_size: 4129512
dataset_size: 4218860
- config_name: engineering
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 9809133
num_examples: 189
download_size: 9675698
dataset_size: 9809133
- config_name: health
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 2987996
num_examples: 200
download_size: 2884202
dataset_size: 2987996
- config_name: math
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 3561783
num_examples: 196
download_size: 3471113
dataset_size: 3561783
- config_name: physics
features:
- name: data
list:
- name: content
dtype: string
- name: role
dtype: string
- name: raw_response
struct:
- name: text
dtype: string
- name: raw_text
dtype: string
- name: knowledge_pieces
list: string
- name: doc_id
dtype: int64
- name: native_id
dtype: int64
splits:
- name: train
num_bytes: 6759733
num_examples: 198
download_size: 6654366
dataset_size: 6759733
configs:
- config_name: biology
data_files:
- split: train
path: biology/train-*
- config_name: chemistry
data_files:
- split: train
path: chemistry/train-*
- config_name: computer science
data_files:
- split: train
path: computer science/train-*
- config_name: engineering
data_files:
- split: train
path: engineering/train-*
- config_name: health
data_files:
- split: train
path: health/train-*
- config_name: math
data_files:
- split: train
path: math/train-*
- config_name: physics
data_files:
- split: train
path: physics/train-*
---
数据集信息:
- 配置名称:生物学(biology)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:3179579,样本数量:199
下载大小:3080694,数据集总大小:3179579
- 配置名称:化学(chemistry)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:6225828,样本数量:197
下载大小:6112244,数据集总大小:6225828
- 配置名称:计算机科学(computer science)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:4218860,样本数量:199
下载大小:4129512,数据集总大小:4218860
- 配置名称:工程学(engineering)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:9809133,样本数量:189
下载大小:9675698,数据集总大小:9809133
- 配置名称:健康科学(health)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:2987996,样本数量:200
下载大小:2884202,数据集总大小:2987996
- 配置名称:数学(math)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:3561783,样本数量:196
下载大小:3471113,数据集总大小:3561783
- 配置名称:物理学(physics)
特征:
- 名称:data,为列表(list)类型,其元素包含:
- 名称:content,数据类型(data type)为字符串
- 名称:role,数据类型(data type)为字符串
- 名称:raw_response,为结构体(struct)类型,包含:
- 名称:text,数据类型(data type)为字符串
- 名称:raw_text,数据类型(data type)为字符串
- 名称:knowledge_pieces,为字符串列表
- 名称:doc_id,数据类型为64位整型(int64)
- 名称:native_id,数据类型为64位整型(int64)
数据拆分:
- 名称:train(训练集),字节占用量:6759733,样本数量:198
下载大小:6654366,数据集总大小:6759733
配置列表:
- 配置名称:生物学(biology),数据文件:
- 拆分名称:train(训练集),路径:biology/train-*
- 配置名称:化学(chemistry),数据文件:
- 拆分名称:train(训练集),路径:chemistry/train-*
- 配置名称:计算机科学(computer science),数据文件:
- 拆分名称:train(训练集),路径:computer science/train-*
- 配置名称:工程学(engineering),数据文件:
- 拆分名称:train(训练集),路径:engineering/train-*
- 配置名称:健康科学(health),数据文件:
- 拆分名称:train(训练集),路径:health/train-*
- 配置名称:数学(math),数据文件:
- 拆分名称:train(训练集),路径:math/train-*
- 配置名称:物理学(physics),数据文件:
- 拆分名称:train(训练集),路径:physics/train-*
提供机构:
lihaoxin2020



