HuggingFaceTB/cosmopedia
收藏数据集概述
数据集名称
Cosmopedia
数据集描述
Cosmopedia是一个包含合成教材、博客文章、故事、帖子和WikiHow文章的数据集,由Mixtral-8x7B-Instruct-v0.1生成。该数据集包含超过3000万文件和250亿个令牌,是目前最大的开放合成数据集。
数据集内容
数据集涵盖多种主题,通过映射Web数据集如RefinedWeb和RedPajama中的世界知识,生成涵盖这些主题的合成内容。
数据集结构
数据集分为8个不同的部分,每个部分基于用于生成内容的种子样本的来源:
- web_samples_v1 和 web_samples_v2:使用内部Web数据集样本,占数据集的约75%。
- stanford:使用斯坦福大学课程大纲作为种子样本。
- stories:使用UltraChat和OpenHermes2.5数据集的样本生成故事。
- wikihow:使用WikiHow文章标题生成WikiHow文章。
- openstax:使用OpenStax课程大纲作为种子样本。
- khanacademy:使用Khan Academy课程大纲作为种子样本。
- automathtext:使用AutoMathText数据集的样本,涵盖不仅仅是数学。
数据集特征
- prompt:用于生成内容的提示。
- text:生成的合成内容。
- seed_data:用于生成内容的种子数据来源。
- token_length:文本中的令牌数量。
- format:文本的样式,如教科书、博客文章、故事等。
- audience:目标受众。
数据集使用
数据集可以通过Hugging Face的load_dataset函数加载和使用。例如:
python
from datasets import load_dataset
ds = load_dataset("HuggingFaceTB/cosmopedia", "stories", split="train", num_proc=12) ds[0]
数据集版本
除了主要数据集外,还有Cosmopedia-100k和基于Cosmopedia训练的模型Cosmo-1B。
数据集创建
数据集的创建涉及主题聚类、多样性增强和去污染处理,确保数据的质量和多样性。
数据集许可证
数据集遵循Apache-2.0许可证。
数据集语言
数据集主要使用英语。
数据集标签
- synthetic:表示数据集内容为合成生成。
数据集引用
@software{benallal2024cosmopedia, author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro}, title = {Cosmopedia}, month = February, year = 2024, url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia} }




