DAMO-NLP-SG/LongCorpus-2.5B

Name: DAMO-NLP-SG/LongCorpus-2.5B
Creator: DAMO-NLP-SG
Published: 2024-01-19 18:15:18
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DAMO-NLP-SG/LongCorpus-2.5B

下载链接

链接失效反馈

官方服务：

资源简介：

我们收集了一个2.5B的训练数据集，用于长上下文持续预训练，该数据集来自多个领域。数据集的构成如下：书籍占40%，Arxiv占20%，通用文本占20%，代码占10%，问答占5%，摘要占5%。我们还策划了一个包含250百万个tokens的测试数据集，其构成与训练数据集相似，但排除了问答和摘要数据，以确保测试数据的独立性。测试数据集中书籍、Arxiv、通用文本和代码的tokens分布比例为4:2:2:1。

提供机构：

DAMO-NLP-SG

原始信息汇总

数据集概述

数据集组成

训练数据集：包含25亿个训练样本，来自多个领域。
- 书籍：占比40%，来源为Redpajama-Book。
- Arxiv：占比20%，来源为Redpajama-Arxiv。
- 通用：占比20%，来源为Redpajama。
- 代码：占比10%，来源为LCC-Python。
- 问答：占比5%，来源为Natural Questions。
- 摘要：占比5%，来源为BookSum。
测试数据集：包含2.5亿个标记，与训练数据集的组成相似。
- 选择标准：确保与训练集的平均n-gram相似度（n=2, 3, 4）低于10%。
- 排除内容：排除了所有问答和摘要数据。
- 分布比例：书籍、Arxiv、通用和代码类别的标记分布比例为4:2:2:1。

5,000+

优质数据集

54 个

任务类型

进入经典数据集