five

DAMO-NLP-SG/LongCorpus-2.5B

收藏
Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DAMO-NLP-SG/LongCorpus-2.5B
下载链接
链接失效反馈
官方服务:
资源简介:
我们收集了一个2.5B的训练数据集,用于长上下文持续预训练,该数据集来自多个领域。数据集的构成如下:书籍占40%,Arxiv占20%,通用文本占20%,代码占10%,问答占5%,摘要占5%。我们还策划了一个包含250百万个tokens的测试数据集,其构成与训练数据集相似,但排除了问答和摘要数据,以确保测试数据的独立性。测试数据集中书籍、Arxiv、通用文本和代码的tokens分布比例为4:2:2:1。
提供机构:
DAMO-NLP-SG
原始信息汇总

数据集概述

数据集组成

  • 训练数据集:包含25亿个训练样本,来自多个领域。

  • 测试数据集:包含2.5亿个标记,与训练数据集的组成相似。

    • 选择标准:确保与训练集的平均n-gram相似度(n=2, 3, 4)低于10%。
    • 排除内容:排除了所有问答和摘要数据。
    • 分布比例:书籍、Arxiv、通用和代码类别的标记分布比例为4:2:2:1。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作