HuggingFaceTB/cosmopedia

Name: HuggingFaceTB/cosmopedia
Creator: HuggingFaceTB
Published: 2024-08-12 22:05:49
License: 暂无描述

Hugging Face2024-08-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceTB/cosmopedia

下载链接

链接失效反馈

官方服务：

资源简介：

Cosmopedia是一个由Mixtral-8x7B-Instruct-v0.1生成的合成数据集，包含超过3000万文件和250亿个令牌，是目前最大的开放合成数据集。数据集涵盖了多种主题，包括教科书、博客文章、故事、帖子以及WikiHow文章，旨在映射网络数据集中的世界知识，并生成覆盖这些知识的合成内容。数据集分为8个部分，每个部分基于不同的种子样本来源，如网络样本、斯坦福课程、OpenStax、KhanAcademy等。数据集的特征包括提示、生成的文本、种子数据、文本令牌长度、格式和目标受众。数据集的创建过程涉及主题聚类、提示的迭代优化以及去污染处理，以确保数据的多样性和质量。

Cosmopedia is a synthetic dataset generated by Mixtral-8x7B-Instruct-v0.1, consisting of over 30 million files and 25 billion tokens, making it the largest open synthetic dataset to date. This dataset covers a wide range of topics, including textbooks, blog articles, stories, online posts, and WikiHow articles. It is designed to map the world knowledge within web datasets and produce synthetic content that encompasses this knowledge. The dataset is divided into 8 segments, each based on distinct seed sample sources, such as web samples, Stanford courses, OpenStax, Khan Academy, and others. The characteristics of the dataset include prompts, generated text, seed data, text token length, formatting, and target audience. The dataset creation process involves topic clustering, iterative optimization of prompts, and decontamination processing to ensure the diversity and quality of the data.

提供机构：

HuggingFaceTB

原始信息汇总

数据集概述

数据集名称

Cosmopedia

数据集描述

Cosmopedia是一个包含合成教材、博客文章、故事、帖子和WikiHow文章的数据集，由Mixtral-8x7B-Instruct-v0.1生成。该数据集包含超过3000万文件和250亿个令牌，是目前最大的开放合成数据集。

数据集内容

数据集涵盖多种主题，通过映射Web数据集如RefinedWeb和RedPajama中的世界知识，生成涵盖这些主题的合成内容。

数据集结构

数据集分为8个不同的部分，每个部分基于用于生成内容的种子样本的来源：

web_samples_v1 和 web_samples_v2：使用内部Web数据集样本，占数据集的约75%。
stanford：使用斯坦福大学课程大纲作为种子样本。
stories：使用UltraChat和OpenHermes2.5数据集的样本生成故事。
wikihow：使用WikiHow文章标题生成WikiHow文章。
openstax：使用OpenStax课程大纲作为种子样本。
khanacademy：使用Khan Academy课程大纲作为种子样本。
automathtext：使用AutoMathText数据集的样本，涵盖不仅仅是数学。

数据集特征

prompt：用于生成内容的提示。
text：生成的合成内容。
seed_data：用于生成内容的种子数据来源。
token_length：文本中的令牌数量。
format：文本的样式，如教科书、博客文章、故事等。
audience：目标受众。

数据集使用

数据集可以通过Hugging Face的load_dataset函数加载和使用。例如： python from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/cosmopedia", "stories", split="train", num_proc=12) ds[0]

数据集版本

除了主要数据集外，还有Cosmopedia-100k和基于Cosmopedia训练的模型Cosmo-1B。

数据集创建

数据集的创建涉及主题聚类、多样性增强和去污染处理，确保数据的质量和多样性。

数据集许可证

数据集遵循Apache-2.0许可证。

数据集语言

数据集主要使用英语。

数据集标签

synthetic：表示数据集内容为合成生成。

数据集引用

@software{benallal2024cosmopedia, author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro}, title = {Cosmopedia}, month = February, year = 2024, url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia} }

搜集汇总

数据集介绍

构建方式

Cosmopedia数据集的构建基于Mixtral-8x7B-Instruct-v0.1模型，通过使用多种来源的种子数据生成合成文本。这些种子数据包括来自斯坦福大学、OpenStax、KhanAcademy等教育资源的课程大纲，以及来自Web样本和故事集的文本。每个种子数据被用于生成不同风格和受众的文本，如教科书、博客文章、故事等。通过这种方式，数据集涵盖了广泛的主题和知识领域，旨在提供多样化的合成数据。

特点

Cosmopedia数据集的特点在于其庞大的规模和多样性。该数据集包含超过3000万个文件和250亿个标记，是目前最大的开放合成数据集。其多样性体现在涵盖了从学术教科书到日常故事的多种文本类型，以及针对不同受众（如儿童、大学生、研究人员）的定制化内容。此外，数据集通过精心设计的提示和迭代优化，确保了生成文本的多样性和质量。

使用方法

使用Cosmopedia数据集时，用户可以通过HuggingFace的datasets库加载所需的子集。例如，使用以下代码可以加载'stories'子集： python from datasets import load_dataset ds = load_dataset("HuggingFaceTB/cosmopedia", "stories", split="train", num_proc=12) ds[0] 此外，数据集还提供了详细的特征信息，包括提示、生成文本、种子数据来源、标记长度、文本格式和目标受众等，便于用户进行深入分析和应用。

背景与挑战

背景概述

Cosmopedia数据集是由Mixtral-8x7B-Instruct-v0.1模型生成的合成文本数据集，涵盖了从教科书、博客文章到故事和WikiHow文章等多种内容。该数据集由HuggingFaceTB团队创建，旨在通过合成数据推动全球知识多样性和连接性的研究。Cosmopedia包含超过3000万份文件和250亿个标记，是目前最大的开放合成数据集。其核心研究问题在于如何有效地从网络数据集中提取知识，并生成高质量的合成内容，以支持人工智能模型的训练和评估。该数据集的发布标志着合成数据在教育和技术领域应用的重要进展，为相关领域的研究提供了丰富的资源。

当前挑战

Cosmopedia数据集在构建过程中面临多项挑战。首先，如何从庞大的网络数据中筛选出有教育价值的样本，并进行有效的主题聚类，是一个复杂且耗时的过程。其次，生成内容的多样性和质量控制也是一个重要挑战，需要通过不断迭代和优化提示来实现。此外，数据集的重复检测和去污染工作也是确保数据集质量的关键步骤。最后，如何确保生成的合成内容在不同受众和格式下保持一致性和适用性，是该数据集面临的另一大挑战。这些挑战不仅涉及技术层面的处理，还需要深入理解不同文化和知识领域的特点。

常用场景

经典使用场景

在教育与知识生成领域，Cosmopedia数据集以其庞大的规模和多样化的内容类型，成为生成式模型训练的理想选择。该数据集通过整合来自不同来源的种子数据，如斯坦福课程大纲、OpenStax教材、KhanAcademy课程等，生成了一系列合成文本，涵盖了从学术教材到日常故事的广泛内容。这种多样性使得Cosmopedia在训练模型以生成高质量、多样化的文本内容方面具有显著优势。

衍生相关工作

基于Cosmopedia数据集，研究者们开发了多种衍生工作，包括但不限于改进的生成式模型、教育内容推荐系统以及跨文化交流工具。例如，Cosmo-1B模型就是在Cosmopedia数据集上训练的一个1.8B参数的模型，展示了该数据集在提升模型性能方面的潜力。此外，Cosmopedia还激发了关于合成数据生成和应用的进一步研究，推动了生成式人工智能在教育和其他领域的创新应用。

数据集最近研究