LLM360/AmberDatasets

Name: LLM360/AmberDatasets
Creator: LLM360
Published: 2024-04-02 20:00:56
License: 暂无描述

Hugging Face2024-04-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LLM360/AmberDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

Amber-Data数据集包含用于训练Amber模型的完整数据序列，Amber是LLM360项目中的一个大型语言模型。数据集由360个标记化的数据块组成，每个实例包含2049个标记索引。数据集的许可证为Apache 2.0。数据集的混合来源包括Arxiv、Book、C4、Refined-Web、StarCoder、StackExchange和Wikipedia，总标记数量为1259.13亿。LLM360项目旨在通过开源所有训练细节、模型检查点、中间结果和额外分析，推动大型语言模型领域的发展。

提供机构：

LLM360

原始信息汇总

Amber-Data

数据描述

数据格式： 360个分词后的数据块，每个实例包含2049个token索引。
许可证： Apache 2.0
更多信息资源：
- 生成数据的代码
- Amber模型

数据混合

Amber数据集使用以下数据混合：

子集	令牌数（十亿）
Arxiv	30.00
Book	28.86
C4	197.67
Refined-Web	665.01
StarCoder	291.92
StackExchange	21.75
Wikipedia	23.90
总计	1259.13

加载Amber的预训练数据

以下是如何下载、采样和解码Amber数据集的任意子集的示例代码：

python import random from transformers import AutoTokenizer from datasets import load_dataset

CHECKPOINT_NUM = 0 # 预训练数据集的检查点编号 NUM_SAMPLES = 10 # 要解码的随机样本数量 CHECKPOINT_PATH = "/path/to/ckpt_000/" # Amber检查点的本地路径

dataset = load_dataset( "LLM360/AmberDatasets", data_files=f"train/train_{CHECKPOINT_NUM:03}.jsonl", split=None, )

tokenizer = AutoTokenizer.from_pretrained(CHECKPOINT_PATH) samples = set(random.choices(range(len(dataset["train"])), k=NUM_SAMPLES))

for i, line in enumerate(dataset["train"]): if i in samples: tokens = line["token_ids"] print(f"{i}:{tokenizer.decode(tokens)}")

许可证

本工作在ODC-BY许可下发布，授予对数据集的权利，但不包括数据集内容的个别权利。

引用

如需引用LLM360，请使用以下引用：

@misc{liu2023llm360, title={LLM360: Towards Fully Transparent Open-Source LLMs}, author={Zhengzhong Liu and Aurick Qiao and Willie Neiswanger and Hongyi Wang and Bowen Tan and Tianhua Tao and Junbo Li and Yuqi Wang and Suqi Sun and Omkar Pangarkar and Richard Fan and Yi Gu and Victor Miller and Yonghao Zhuang and Guowei He and Haonan Li and Fajri Koto and Liping Tang and Nikhil Ranjan and Zhiqiang Shen and Xuguang Ren and Roberto Iriondo and Cun Mu and Zhiting Hu and Mark Schulze and Preslav Nakov and Tim Baldwin and Eric P. Xing}, year={2023}, eprint={2312.06550}, archivePrefix={arXiv}, primaryClass={cs.CL} }

如果仅使用原始数据集，请引用原始数据集。

搜集汇总

数据集介绍

构建方式

LLM360/AmberDatasets 数据集是由LLM360项目构建的，旨在推进大型语言模型（LLM）领域的发展。该数据集包含了用于训练Amber模型的完全准备好的数据序列。数据集的构建采用了多样化的数据混合策略，整合了包括Arxiv、Book、C4等在内的多个数据源，总计约1259.13亿个标记，每个实例包含2049个标记索引，并以Apache 2.0许可证发布。

特点

该数据集的特点在于其开放性、全面性和透明性。它不仅提供了模型训练所需的数据，还公开了所有的中间模型检查点、源代码和配置文件，以及训练细节，使得研究者和开发者能够深入理解LLM的工作原理。此外，数据集遵循ODC-BY协议，确保了数据的使用权，但不对数据内容个别授权。

使用方法

使用LLM360/AmberDatasets数据集时，用户需要先设定模型检查点编号和本地检查点路径。通过调用transformers和datasets库的相关功能，可以轻松下载、抽样和解析数据集的子集。用户可以通过修改CHECKPOINT_NUM和CHECKPOINT_PATH变量，来指定所需的数据子集和对应的模型检查点，进而进行数据的加载和预处理。

背景与挑战

背景概述

LLM360/AmberDatasets数据集，作为LLM360项目的重要组成部分，由LLM360团队开发并维护。该数据集包含了用于训练Amber模型的全套预处理数据序列。LLM360项目旨在推进大规模语言模型的研究，通过公开所有训练细节、模型检查点、中间结果及额外分析，鼓励社区共同深化对语言模型的理解。Amber模型的数据集汇集了来自Arxiv、书籍、C4、精炼网络、StarCoder、StackExchange和Wikipedia等多个来源的海量数据，总计约1259.13亿个标记。该数据集的发布时间为2023年，主要研究人员包括Zhengzhong Liu、Aurick Qiao等，这一数据集的开放为语言模型领域的研究提供了宝贵资源，推动了相关领域的发展。

当前挑战

在构建LLM360/AmberDatasets数据集的过程中，研究团队面临了多方面的挑战。首先，整合来自不同来源的数据并保持数据质量的一致性是一项艰巨的任务。其次，确保数据集的多样性和广泛性，以便训练出能够适应多种任务的语言模型，也是一项挑战。此外，数据预处理和标记化的过程中，如何高效处理庞大的数据量，同时保证模型的训练效率，是技术上的一个挑战。最后，遵守数据使用许可，保护数据内容个体的版权，也是数据集构建过程中的一个重要考量。

常用场景

经典使用场景

在自然语言处理领域，LLM360/AmberDatasets数据集的典型应用场景是作为大型语言模型Amber的预训练数据。该数据集集合了多元化的文本来源，如科研论文、书籍、网络内容等，为模型提供了丰富的语言特征学习基础，进而使得模型能够理解和生成复杂多变的自然语言。

衍生相关工作

基于LLM360/AmberDatasets数据集，学术界和工业界已衍生出多项相关工作，包括模型压缩、跨语言处理、对话系统构建等领域的探索。这些工作不仅拓宽了大数据与深度学习结合的应用范围，也推动了自然语言处理技术的进步和创新发展。

数据集最近研究