five

mlfoundations/dclm-baseline-1.0-parquet

收藏
Hugging Face2024-07-19 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/mlfoundations/dclm-baseline-1.0-parquet
下载链接
链接失效反馈
官方服务:
资源简介:
DCLM-baseline是一个包含4万亿个标记和30亿个文档的预训练数据集,旨在作为DCLM基准的研究基线。该数据集展示了数据整理在训练高性能语言模型中的重要性。数据集是从Common Crawl数据中经过一系列清洗、过滤和去重步骤创建的,主要用于研究目的,不适用于生产环境或特定领域(如代码和数学)。

DCLM-baseline is a pretraining dataset containing 4 trillion tokens and 3 billion documents, designed to demonstrate the importance of data curation by achieving strong performance on language model benchmarks. Curated by the DCLM Team, the dataset is in English and released under the CC-by-4.0 license. It is sourced from Common Crawl and processed through a series of cleaning, filtering, and deduplication steps, specifically designed for research on the DCLM benchmark.
提供机构:
mlfoundations
原始信息汇总

DCLM-baseline 数据集概述

数据集描述

  • 名称: DCLM-baseline
  • 语言: 英语
  • 许可证: CC-by-4.0
  • 大小: 4T token / 3B document
  • 来源: Common Crawl
  • 创建者: DCLM Team

数据集详情

数据集描述

  • 语言: 英语
  • 许可证: CC-by-4.0
  • 来源: Common Crawl

数据集用途

  • 直接用途: 作为DCLM基准的研究基线,展示数据筛选在训练高性能语言模型中的重要性。
  • 超出范围的用途: 不适用于训练生产就绪模型或特定领域(如代码和数学)。

数据集创建

  • 创建理由: 展示DCLM测试平台在开发高质量语言模型训练集中的有效性。
  • 数据收集与处理:
    1. 启发式清洗和过滤
    2. 使用Bloom过滤器去重
    3. 使用fastText分类器进行模型过滤
  • 源数据生产者: Common Crawl

偏见、风险和局限性

  • 偏见: 可能包含Common Crawl数据中的偏见。
  • 局限性: 在代码和数学任务上的表现有限。
  • 推荐用途: 仅用于DCLM基准的研究目的。

引用

bibtex @misc{li2024datacomplm, title={DataComp-LM: In search of the next generation of training sets for language models}, author={Jeffrey Li and others}, year={2024}, eprint={2406.11794}, archivePrefix={arXiv}, primaryClass={cs.LG} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作