five

sail/regmix-data

收藏
Hugging Face2024-09-12 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/sail/regmix-data
下载链接
链接失效反馈
官方服务:
资源简介:
RegMix数据集是从Pile-Uncopyrighted中提取的,专门为RegMix论文设计,旨在通过回归任务自动识别高性能的数据混合物,用于语言模型预训练。数据集包含约1TB的磁盘空间和250B的令牌,按照不同领域的自然令牌分布组织,分为`train`和`valid`两个主要目录,每个目录包含特定领域的JSONL文件。使用建议下载整个数据集快照,而不是使用传统的`load_dataset`函数。数据预处理代码将领域文件转换为二进制格式,并允许用户定义的数据混合物进行随机采样。

The RegMix Data is a curated dataset derived from the Pile-Uncopyrighted, specifically designed for the RegMix paper. This dataset aims to facilitate the automatic identification of high-performing data mixtures for language model pre-training by formulating it as a regression task. The dataset is approximately 1TB in size, containing 250B tokens, following the natural token distribution of domain examples, and separates examples from different domains into individual files. The dataset is organized into two main directories: `train` and `valid`, each containing domain-specific JSONL files. It is recommended to download the entire dataset snapshot instead of using the traditional `load_dataset` function, as the RegMix code is integrated with the TinyLlama framework.
提供机构:
sail
原始信息汇总

RegMix Data

数据集描述

RegMix Data 是一个从 Pile-Uncopyrighted 数据集中精心挑选的数据集,专门为 RegMix 论文设计,旨在通过将语言模型预训练中的高性能数据混合识别问题转化为回归任务,来促进自动识别高性能数据混合。

关键特征

  • 大小:约 1TB 磁盘空间,250B 个 token
  • 分布:遵循领域示例的自然 token 分布
  • 组织:不同领域的示例被分离到单独的文件中

数据集结构

数据集分为两个主要目录:trainvalid,每个目录包含特定领域的 JSONL 文件。文件命名约定如下:

[domain]-[identifier]-[number].jsonl

例如:arxiv-10-74305611.jsonl

包含的领域

arxiv, gutenberg_pg_19, pubmed_central, dm_mathematics, hackernews, stackexchange, enron_emails, nih_exporter, ubuntu_irc, europarl, philpapers, uspto_backgrounds, freelaw, pile_cc, wikipedia_en, github, pubmed_abstracts

使用方法

建议下载整个数据集快照,而不是使用传统的 load_dataset 函数,因为 RegMix 代码与 TinyLlama 框架 集成。

下载数据集的代码示例如下:

python from huggingface_hub import snapshot_download

LOCAL_DIR = "regmix-data" snapshot_download(repo_id="sail/regmix-data", repo_type=dataset, local_dir=LOCAL_DIR, local_dir_use_symlinks=False)

这将下载整个快照,包含 34 个 JSON 行文件(17 个用于训练,17 个用于验证),到指定的本地目录。

数据预处理

我们的代码将这些领域文件预处理为带有领域前缀的二进制格式,允许使用用户定义的数据混合(即领域权重)进行随机采样。

致谢

我们感谢 Pile-Uncopyrighted 数据集 的创建者,他们从原始 Pile 数据集中移除了受版权保护的内容,使这项工作成为可能。

引用

如果您在研究中使用此数据集,请引用 RegMix 论文:

@article{liu2024regmix, title={RegMix: Data Mixture as Regression for Language Model Pre-training}, author={Liu, Qian and Zheng, Xiaosen and Muennighoff, Niklas and Zeng, Guangtao and Dou, Longxu and Pang, Tianyu and Jiang, Jing and Lin, Min}, journal={arXiv preprint arXiv:2407.01492}, year={2024} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作