my-cosmopedia-dataset
收藏Pre-processed and Cleaned Cosmopedia Dataset 概述
数据集基本信息
- 语言: 英语 (en)
- 许可证: Apache 2.0
- 多语言性: 单语
- 数据规模: 10万到100万条样本之间
- 源数据集: HuggingFaceTB/cosmopedia
任务与标签
- 任务类别: 文本生成、指令调优
- 标签: cosmopedia、mixtral、instruction-tuning、sft
数据集描述
该数据集是原始HuggingFaceTB/cosmopedia数据集的预处理和清理版本,专门为监督微调(SFT)和指令调优任务设计。
处理亮点
- 逐条流式传输和验证记录
- 移除或纠正无效或不完整的条目
- 数据标准化为指令-响应格式
- 清理和规范化来源及语言标签
包含内容
数据集包含来自以下原始Cosmopedia配置的清理子集:
- stories(短篇小说、叙事)
- khanacademy(教育文本)
- auto_math_text(数学内容)
- openstax(教科书和学习材料)
- stanford(学术风格材料)
- web_samples_v1和web_samples_v2(知识丰富的网络样本)
- wikihow(指导指南和分步任务)
数据格式
原始模式已简化为干净、训练友好的格式:
- 原始字段: prompt、text、source、seed、prompt_length、text_length、language
- 新处理字段: source(标准化来源标签)、language(已验证的en或und)、formatted_text(最终组合文本)
格式化文本采用以下格式:
Instruction:
<prompt>
Response:
<text>
使用方式
数据集设计为流式使用,无需将整个数据集下载到本地机器: python from datasets import load_dataset
repo_id = "blah7/my-cosmopedia-dataset" streaming_dataset = load_dataset(repo_id, streaming=True, split="train")
for record in streaming_dataset: print(record[formatted_text][:200]) break
许可信息
原始HuggingFaceTB/cosmopedia数据集和此衍生数据集均在Apache 2.0许可下提供。
引用
如使用此数据集,请引用原始Cosmopedia论文作者: bibtex @software{benallal2024cosmopedia, author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro}, title = {Cosmopedia}, month = February, year = 2024, url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia} }




