my-cosmopedia-dataset

Hugging Face2025-09-13 更新2025-09-14 收录

下载链接：

https://huggingface.co/datasets/blah7/my-cosmopedia-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

预处理和清理后的宇宙百科数据集是一个基于原始HuggingFaceTB/cosmopedia集合的即用型派生数据集。该数据集由高质量的教学书籍、博客文章、故事、教程和论坛讨论组成，由Mixtral-8x7B生成。原始数据集非常丰富，但在用于监督微调（SFT）或其他指令调整任务之前，需要进行大量预处理。此存储库提供了处理后的版本，包括记录的流式传输和验证、无效或不完整条目的移除或纠正、数据标准化为指令-响应格式，以及源和语言标签的清洗和规范化。数据集涵盖了创意写作、STEM、教育、现实世界指导和一般知识等多个领域。

创建时间：

2025-09-11

原始信息汇总

Pre-processed and Cleaned Cosmopedia Dataset 概述

数据集基本信息

语言: 英语 (en)
许可证: Apache 2.0
多语言性: 单语
数据规模: 10万到100万条样本之间
源数据集: HuggingFaceTB/cosmopedia

任务与标签

任务类别: 文本生成、指令调优
标签: cosmopedia、mixtral、instruction-tuning、sft

数据集描述

该数据集是原始HuggingFaceTB/cosmopedia数据集的预处理和清理版本，专门为监督微调（SFT）和指令调优任务设计。

处理亮点

逐条流式传输和验证记录
移除或纠正无效或不完整的条目
数据标准化为指令-响应格式
清理和规范化来源及语言标签

包含内容

数据集包含来自以下原始Cosmopedia配置的清理子集：

stories（短篇小说、叙事）
khanacademy（教育文本）
auto_math_text（数学内容）
openstax（教科书和学习材料）
stanford（学术风格材料）
web_samples_v1和web_samples_v2（知识丰富的网络样本）
wikihow（指导指南和分步任务）

数据格式

原始模式已简化为干净、训练友好的格式：

原始字段: prompt、text、source、seed、prompt_length、text_length、language
新处理字段: source（标准化来源标签）、language（已验证的en或und）、formatted_text（最终组合文本）

格式化文本采用以下格式：

Instruction:

Response:

<text>

使用方式

数据集设计为流式使用，无需将整个数据集下载到本地机器： python from datasets import load_dataset

repo_id = "blah7/my-cosmopedia-dataset" streaming_dataset = load_dataset(repo_id, streaming=True, split="train")

for record in streaming_dataset: print(record[formatted_text][:200]) break

许可信息

原始HuggingFaceTB/cosmopedia数据集和此衍生数据集均在Apache 2.0许可下提供。

引用

如使用此数据集，请引用原始Cosmopedia论文作者： bibtex @software{benallal2024cosmopedia, author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro}, title = {Cosmopedia}, month = February, year = 2024, url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量数据集是模型训练的基础。本数据集基于原始Cosmopedia数据集，通过逐条流式传输与验证机制，系统性地剔除了无效或不完整的条目，并对数据格式进行了标准化处理，转化为指令-响应对结构。源数据和语言标签均经过清洗与归一化，确保了数据的完整性与一致性，为监督微调任务提供了即用型数据支持。

特点

该数据集融合了多领域合成文本，涵盖教育材料、学术内容、创意写作及实用指南等丰富类型。其核心特征在于经过格式统一化处理，每条数据均以结构化文本形式呈现，包含清晰的指令与模型生成的高质量响应。语言标签经过严格验证，仅保留英语或未定义语言条目，保证了语料库的纯净度与适用性。

使用方法

研究人员可通过流式加载方式高效使用本数据集，无需下载全部内容即可进行模型训练。借助HuggingFace Datasets库，用户可直接以流模式读取数据，并迭代访问每条记录的格式化文本字段。这种设计显著降低了硬件资源需求，同时支持大规模语言模型的指令微调与文本生成任务，适用于多种自然语言处理应用场景。

背景与挑战

背景概述

Cosmopedia数据集由HuggingFace团队于2024年2月正式发布，核心研究人员包括Loubna Ben Allal、Anton Lozhkov等学者。该数据集通过Mixtral-8x7B模型生成大规模合成文本，涵盖教科书、博客、故事、教程及论坛讨论等多类型内容，旨在为指令微调与监督微调任务提供高质量语料。其跨领域特性覆盖STEM教育、文学创作与实用指南等多维度知识体系，显著推进了语言模型在多样化文本生成与理解任务中的性能边界。

当前挑战

该数据集需解决指令微调任务中文本质量一致性、领域覆盖均衡性及格式标准化等核心挑战。原始数据包含大量未结构化文本与残缺条目，需通过流式验证与语义完整性筛选确保数据可用性；构建过程中需克服多源文本格式异构性、语言标签噪声清理以及指令-响应对齐等工程难题，最终通过规范化字段重组与格式统一实现训练可用性。

常用场景

经典使用场景

在自然语言处理领域，该数据集作为高质量的指令微调资源，广泛应用于大规模语言模型的监督式微调过程。其精心构建的指令-响应格式特别适用于对话系统、文本生成模型的训练，能够有效提升模型对复杂指令的理解能力和响应质量。研究人员通过该数据集可以训练出更具交互性和实用性的语言模型。

实际应用

在实际应用层面，该数据集为开发智能教育助手、创意写作工具和知识问答系统提供了重要支撑。教育机构可利用其丰富的学科内容训练专业领域的对话系统，而内容创作行业则能基于其故事生成能力开发自动化写作助手。企业级应用还可将其用于客户服务机器人的训练，提升自然语言交互体验。

衍生相关工作

基于该数据集衍生的经典工作包括多模态指令微调框架的构建和领域自适应方法的研究。许多研究团队利用其标准化格式开发了新的微调算法，特别是在少样本学习场景下取得了显著进展。同时，该数据集也催生了多个针对特定领域优化的子数据集，如数学问题求解和学术写作辅助等专项研究。

以上内容由遇见数据集搜集并总结生成