BigfufuOuO/codegen1_merged_clean

Name: BigfufuOuO/codegen1_merged_clean
Creator: BigfufuOuO
Published: 2026-04-08 08:56:17
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/BigfufuOuO/codegen1_merged_clean

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: default features: - name: test_cases dtype: string - name: system dtype: string - name: user dtype: string - name: assistant dtype: string - name: source_dataset dtype: string - name: task dtype: string - name: pass dtype: bool - name: errors dtype: string - name: fn_mode dtype: string splits: - name: train num_bytes: 825767243.2622701 num_examples: 13538 download_size: 351429522 dataset_size: 825767243.2622701 - config_name: rl features: - name: test_cases dtype: string - name: system dtype: string - name: user dtype: string - name: assistant dtype: string - name: source_dataset dtype: string - name: task dtype: string - name: pass dtype: bool - name: errors dtype: string - name: fn_mode dtype: string - name: _assistant_tokens dtype: int64 - name: _total_tokens dtype: int64 - name: _idx dtype: int64 splits: - name: train num_bytes: 531605553.99615896 num_examples: 10000 download_size: 272311020 dataset_size: 531605553.99615896 - config_name: sft features: - name: test_cases dtype: string - name: system dtype: string - name: user dtype: string - name: assistant dtype: string - name: source_dataset dtype: string - name: task dtype: string - name: pass dtype: bool - name: errors dtype: string - name: fn_mode dtype: string - name: _assistant_tokens dtype: int64 - name: _total_tokens dtype: int64 - name: _idx dtype: int64 splits: - name: train num_bytes: 402405430.3355653 num_examples: 7790 - name: test num_bytes: 25725019.808358345 num_examples: 498 download_size: 163183006 dataset_size: 428130450.1439237 configs: - config_name: default data_files: - split: train path: data/train-* - config_name: rl data_files: - split: train path: rl/train-* - config_name: sft data_files: - split: train path: sft/train-* - split: test path: sft/test-* ---

数据集信息： - 配置名称：default 特征字段： - 字段名称：测试用例（test_cases），数据类型：字符串类型（string） - 字段名称：系统（system），数据类型：字符串类型（string） - 字段名称：用户（user），数据类型：字符串类型（string） - 字段名称：助手（assistant），数据类型：字符串类型（string） - 字段名称：源数据集（source_dataset），数据类型：字符串类型（string） - 字段名称：任务（task），数据类型：字符串类型（string） - 字段名称：是否通过（pass），数据类型：布尔类型（bool） - 字段名称：错误信息（errors），数据类型：字符串类型（string） - 字段名称：函数模式（fn_mode），数据类型：字符串类型（string）数据划分： - 划分名称：训练集（train），字节数：825767243.2622701，样本数量：13538 下载大小：351429522 数据集总大小：825767243.2622701 - 配置名称：rl 特征字段： - 字段名称：测试用例（test_cases），数据类型：字符串类型（string） - 字段名称：系统（system），数据类型：字符串类型（string） - 字段名称：用户（user），数据类型：字符串类型（string） - 字段名称：助手（assistant），数据类型：字符串类型（string） - 字段名称：源数据集（source_dataset），数据类型：字符串类型（string） - 字段名称：任务（task），数据类型：字符串类型（string） - 字段名称：是否通过（pass），数据类型：布尔类型（bool） - 字段名称：错误信息（errors），数据类型：字符串类型（string） - 字段名称：函数模式（fn_mode），数据类型：字符串类型（string） - 字段名称：助手Token数（_assistant_tokens），数据类型：64位整数类型（int64） - 字段名称：总Token数（_total_tokens），数据类型：64位整数类型（int64） - 字段名称：样本索引（_idx），数据类型：64位整数类型（int64）数据划分： - 划分名称：训练集（train），字节数：531605553.99615896，样本数量：10000 下载大小：272311020 数据集总大小：531605553.99615896 - 配置名称：sft 特征字段： - 字段名称：测试用例（test_cases），数据类型：字符串类型（string） - 字段名称：系统（system），数据类型：字符串类型（string） - 字段名称：用户（user），数据类型：字符串类型（string） - 字段名称：助手（assistant），数据类型：字符串类型（string） - 字段名称：源数据集（source_dataset），数据类型：字符串类型（string） - 字段名称：任务（task），数据类型：字符串类型（string） - 字段名称：是否通过（pass），数据类型：布尔类型（bool） - 字段名称：错误信息（errors），数据类型：字符串类型（string） - 字段名称：函数模式（fn_mode），数据类型：字符串类型（string） - 字段名称：助手Token数（_assistant_tokens），数据类型：64位整数类型（int64） - 字段名称：总Token数（_total_tokens），数据类型：64位整数类型（int64） - 字段名称：样本索引（_idx），数据类型：64位整数类型（int64）数据划分： - 划分名称：训练集（train），字节数：402405430.3355653，样本数量：7790 - 划分名称：测试集（test），字节数：25725019.808358345，样本数量：498 下载大小：163183006 数据集总大小：428130450.1439237 数据集配置： - 配置名称：default，数据文件： - 划分：训练集（train），路径：data/train-* - 配置名称：rl，数据文件： - 划分：训练集（train），路径：rl/train-* - 配置名称：sft，数据文件： - 划分：训练集（train），路径：sft/train-* - 划分：测试集（test），路径：sft/test-*

提供机构：

BigfufuOuO

5,000+

优质数据集

54 个

任务类型

进入经典数据集