BigfufuOuO/codegen1_merged_clean
收藏Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BigfufuOuO/codegen1_merged_clean
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: default
features:
- name: test_cases
dtype: string
- name: system
dtype: string
- name: user
dtype: string
- name: assistant
dtype: string
- name: source_dataset
dtype: string
- name: task
dtype: string
- name: pass
dtype: bool
- name: errors
dtype: string
- name: fn_mode
dtype: string
splits:
- name: train
num_bytes: 825767243.2622701
num_examples: 13538
download_size: 351429522
dataset_size: 825767243.2622701
- config_name: rl
features:
- name: test_cases
dtype: string
- name: system
dtype: string
- name: user
dtype: string
- name: assistant
dtype: string
- name: source_dataset
dtype: string
- name: task
dtype: string
- name: pass
dtype: bool
- name: errors
dtype: string
- name: fn_mode
dtype: string
- name: _assistant_tokens
dtype: int64
- name: _total_tokens
dtype: int64
- name: _idx
dtype: int64
splits:
- name: train
num_bytes: 531605553.99615896
num_examples: 10000
download_size: 272311020
dataset_size: 531605553.99615896
- config_name: sft
features:
- name: test_cases
dtype: string
- name: system
dtype: string
- name: user
dtype: string
- name: assistant
dtype: string
- name: source_dataset
dtype: string
- name: task
dtype: string
- name: pass
dtype: bool
- name: errors
dtype: string
- name: fn_mode
dtype: string
- name: _assistant_tokens
dtype: int64
- name: _total_tokens
dtype: int64
- name: _idx
dtype: int64
splits:
- name: train
num_bytes: 402405430.3355653
num_examples: 7790
- name: test
num_bytes: 25725019.808358345
num_examples: 498
download_size: 163183006
dataset_size: 428130450.1439237
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- config_name: rl
data_files:
- split: train
path: rl/train-*
- config_name: sft
data_files:
- split: train
path: sft/train-*
- split: test
path: sft/test-*
---
数据集信息:
- 配置名称:default
特征字段:
- 字段名称:测试用例(test_cases),数据类型:字符串类型(string)
- 字段名称:系统(system),数据类型:字符串类型(string)
- 字段名称:用户(user),数据类型:字符串类型(string)
- 字段名称:助手(assistant),数据类型:字符串类型(string)
- 字段名称:源数据集(source_dataset),数据类型:字符串类型(string)
- 字段名称:任务(task),数据类型:字符串类型(string)
- 字段名称:是否通过(pass),数据类型:布尔类型(bool)
- 字段名称:错误信息(errors),数据类型:字符串类型(string)
- 字段名称:函数模式(fn_mode),数据类型:字符串类型(string)
数据划分:
- 划分名称:训练集(train),字节数:825767243.2622701,样本数量:13538
下载大小:351429522
数据集总大小:825767243.2622701
- 配置名称:rl
特征字段:
- 字段名称:测试用例(test_cases),数据类型:字符串类型(string)
- 字段名称:系统(system),数据类型:字符串类型(string)
- 字段名称:用户(user),数据类型:字符串类型(string)
- 字段名称:助手(assistant),数据类型:字符串类型(string)
- 字段名称:源数据集(source_dataset),数据类型:字符串类型(string)
- 字段名称:任务(task),数据类型:字符串类型(string)
- 字段名称:是否通过(pass),数据类型:布尔类型(bool)
- 字段名称:错误信息(errors),数据类型:字符串类型(string)
- 字段名称:函数模式(fn_mode),数据类型:字符串类型(string)
- 字段名称:助手Token数(_assistant_tokens),数据类型:64位整数类型(int64)
- 字段名称:总Token数(_total_tokens),数据类型:64位整数类型(int64)
- 字段名称:样本索引(_idx),数据类型:64位整数类型(int64)
数据划分:
- 划分名称:训练集(train),字节数:531605553.99615896,样本数量:10000
下载大小:272311020
数据集总大小:531605553.99615896
- 配置名称:sft
特征字段:
- 字段名称:测试用例(test_cases),数据类型:字符串类型(string)
- 字段名称:系统(system),数据类型:字符串类型(string)
- 字段名称:用户(user),数据类型:字符串类型(string)
- 字段名称:助手(assistant),数据类型:字符串类型(string)
- 字段名称:源数据集(source_dataset),数据类型:字符串类型(string)
- 字段名称:任务(task),数据类型:字符串类型(string)
- 字段名称:是否通过(pass),数据类型:布尔类型(bool)
- 字段名称:错误信息(errors),数据类型:字符串类型(string)
- 字段名称:函数模式(fn_mode),数据类型:字符串类型(string)
- 字段名称:助手Token数(_assistant_tokens),数据类型:64位整数类型(int64)
- 字段名称:总Token数(_total_tokens),数据类型:64位整数类型(int64)
- 字段名称:样本索引(_idx),数据类型:64位整数类型(int64)
数据划分:
- 划分名称:训练集(train),字节数:402405430.3355653,样本数量:7790
- 划分名称:测试集(test),字节数:25725019.808358345,样本数量:498
下载大小:163183006
数据集总大小:428130450.1439237
数据集配置:
- 配置名称:default,数据文件:
- 划分:训练集(train),路径:data/train-*
- 配置名称:rl,数据文件:
- 划分:训练集(train),路径:rl/train-*
- 配置名称:sft,数据文件:
- 划分:训练集(train),路径:sft/train-*
- 划分:测试集(test),路径:sft/test-*
提供机构:
BigfufuOuO



