unlearning-cleanslate/corpus_sweep_cleanslate_dataset

Name: unlearning-cleanslate/corpus_sweep_cleanslate_dataset
Creator: unlearning-cleanslate
Published: 2026-03-09 06:53:16
License: 暂无描述

Hugging Face2026-03-09 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/unlearning-cleanslate/corpus_sweep_cleanslate_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: content_id dtype: string - name: content_title dtype: string - name: window_idx dtype: int64 - name: start_token dtype: int64 - name: prefix dtype: string - name: suffix dtype: string - name: total_count dtype: int64 - name: found_in_any dtype: bool - name: top_corpus dtype: string - name: corpus_counts struct: - name: dolma dtype: int64 splits: - name: train num_bytes: 171380139 num_examples: 319673 download_size: 53191241 dataset_size: 171380139 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征字段： - 字段名：content_id（内容ID），数据类型：字符串 - 字段名：content_title（内容标题），数据类型：字符串 - 字段名：window_idx（窗口索引），数据类型：64位整数 - 字段名：start_token（起始Token (Token)），数据类型：64位整数 - 字段名：prefix（前缀），数据类型：字符串 - 字段名：suffix（后缀），数据类型：字符串 - 字段名：total_count（总计数），数据类型：64位整数 - 字段名：found_in_any（是否在任意语料中存在），数据类型：布尔值 - 字段名：top_corpus（最优语料），数据类型：字符串 - 字段名：corpus_counts（语料计数），数据类型：结构体，包含子字段： - 子字段名：dolma，数据类型：64位整数数据集划分： - 划分名称：train（训练集），字节数：171380139，样本数量：319673 下载大小：53191241 数据集总大小：171380139 配置项： - 配置名称：default（默认配置），数据文件： - 训练集划分：数据路径为 data/train-*

提供机构：

unlearning-cleanslate

5,000+

优质数据集

54 个

任务类型

进入经典数据集