BabyLM 2024 Dataset

github2024-11-15 更新2024-11-28 收录

下载链接：

https://github.com/ltgoslo/gpt-bert

下载链接

链接失效反馈

官方服务：

资源简介：

BabyLM 2024数据集用于测试混合预训练模型的性能，结合了掩码语言建模和因果语言建模的优点。数据集包括100M和10M两个版本，用于训练和评估GPT-BERT模型。

The BabyLM 2024 dataset is designed to test the performance of hybrid pre-trained language models, which combines the advantages of masked language modeling (MLM) and causal language modeling (CLM). It includes two versions with sizes of 100M and 10M, and is used for training and evaluating the GPT-BERT model.

创建时间：

2024-10-29

原始信息汇总

GPT-BERT 数据集概述

数据集描述

名称: GPT-BERT
发布者: Lucas Georges Gabriel Charpentier 和 David Samuel
机构: 奥斯陆大学语言技术组

数据集内容

模型:
- HuggingFace 100M 模型: HuggingFace 100M model
- HuggingFace 10M 模型: HuggingFace 10M model
数据集:
- 100M 数据集: 100M Dataset
- 10M 数据集: 10M Dataset

数据集结构

文件夹:
- ./tokenizer_creation/: 包含创建分词器的脚本。
- ./corpus_tokenization/: 包含分词语料库的脚本。
- ./pretraining/: 包含预训练模型的脚本、模型文件、工具、优化器和 PyTorch 数据集。
- ./evaluation/: 包含每个基准测试的文件夹，每个文件夹包含微调（当相关时）和推理的脚本，以及包含基准数据的数据文件夹。
- ./data/: 包含用于预训练的原始、预处理和分词数据。
- ./tokenizers/: 包含创建的分词器或用于预训练的分词器。
- ./configs/: 包含模型的配置文件。
- ./model_checkpoints/: 包含预训练模型的检查点。

数据集使用指南

创建分词器: 如果没有分词器或想创建自定义分词器，运行 tokenizer_creation 中的脚本。
分词语料库: 运行 corpus_tokenization 中的脚本。
创建配置文件: 在 configs 文件夹中创建模型配置文件。
预训练模型: 运行 pretraining 文件夹中的 train_*.py 脚本。
评估模型: 可选，运行 evaluation 文件夹中的脚本。

引用

bibtex @misc{charpentier2024gptbertboth, title={GPT or BERT: why not both?}, author={Lucas Georges Gabriel Charpentier and David Samuel}, year={2024}, eprint={2410.24159}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.24159}, }

搜集汇总

数据集介绍

构建方式

BabyLM 2024 Dataset的构建方式融合了掩码语言建模（Masked Language Modeling, MLM）和因果语言建模（Causal Language Modeling, CLM）。通过这种混合训练目标，数据集旨在生成一个能够在单一Transformer架构中结合两种建模范式优势的模型。具体构建过程包括：首先，使用`tokenizer_creation`目录中的脚本创建或自定义分词器，并将其保存于`tokenizers`目录。接着，利用`corpus_tokenization`目录中的脚本对语料库进行分词，并将结果存储在`data`目录中。随后，在`configs`目录中创建或选择模型配置文件，最后通过`pretraining`目录中的`train_*.py`脚本进行模型预训练。

使用方法

使用BabyLM 2024 Dataset时，首先可根据需求选择或创建分词器，并使用`corpus_tokenization`脚本对语料库进行分词。接着，配置模型参数并运行预训练脚本进行模型训练。若需评估模型性能，可参考`evaluation`目录中的脚本进行微调和推理。每个评估任务目录中均包含相应的数据和代码，确保评估过程的独立性和可重复性。此外，数据集的代码库结构清晰，每个子目录均有详细的README文件，指导用户进行操作。

背景与挑战

背景概述

BabyLM 2024 Dataset是由挪威奥斯陆大学的语言技术研究组开发的，主要研究人员为Lucas Georges Gabriel Charpentier和David Samuel。该数据集的核心研究问题是如何将掩码语言模型（Masked Language Modeling, MLM）与因果语言模型（Causal Language Modeling, CLM）相结合，以创建一个能够同时利用两者优势的混合模型。这一研究旨在提升语言模型的灵活性和性能，对自然语言处理领域具有重要影响。

当前挑战

BabyLM 2024 Dataset在构建过程中面临的主要挑战包括：1) 如何有效地融合掩码语言模型和因果语言模型的训练目标，以确保模型在不同任务中的表现均衡；2) 数据集的构建需要处理大量文本数据，确保数据的质量和多样性，以支持模型的广泛应用；3) 评估混合模型的性能时，需要设计新的评估方法，以全面衡量其在不同语言任务中的表现。

常用场景

经典使用场景

BabyLM 2024 Dataset 的经典使用场景主要集中在语言模型的预训练阶段。该数据集通过融合掩码语言建模（Masked Language Modeling, MLM）和因果语言建模（Causal Language Modeling, CLM），使得模型能够在单一的Transformer架构中同时具备两者的优势。这种混合训练目标不仅提高了模型的灵活性，还显著提升了其在多种语言任务中的表现。研究者可以通过使用该数据集进行预训练，从而获得一个既能在生成任务中表现出色，又能在理解任务中表现优异的模型。

解决学术问题

BabyLM 2024 Dataset 解决了语言模型在单一建模范式下表现受限的问题。传统的MLM和CLM各有优劣，MLM擅长理解任务，而CLM在生成任务中表现更佳。通过融合这两种建模方式，该数据集使得模型能够在理解和生成任务中均表现出色，从而推动了语言模型在多任务处理能力上的进步。这一创新不仅提升了模型的性能，还为未来的语言模型研究提供了新的方向和可能性。

实际应用

BabyLM 2024 Dataset 的实际应用场景广泛，涵盖了自然语言处理（NLP）的多个领域。例如，在智能客服系统中，模型需要既能理解用户的查询，又能生成合适的回复；在机器翻译中，模型需要既能理解源语言的语义，又能生成流畅的目标语言表达。此外，该数据集还可用于文本生成、摘要生成、问答系统等应用中，显著提升这些系统的性能和用户体验。

数据集最近研究