M2D2

Name: M2D2
Creator: 东京大学
Published: 2022-10-14 05:34:52
License: 暂无描述

arXiv2022-10-14 更新2024-06-21 收录

下载链接：

https://github.com/machelreid/m2d2

下载链接

链接失效反馈

官方服务：

资源简介：

M2D2是由东京大学和华盛顿大学合作开发的大规模多域语言建模数据集，包含85亿个令牌，覆盖145个领域，主要从维基百科和Semantic Scholar提取。数据集通过维基百科和ArXiv的分类学进行组织，形成两级层次结构，便于研究领域间的关系及其对模型适应性的影响。M2D2特别适用于研究语言模型在不同领域间的转移学习，尤其是在细粒度领域间的适应性。该数据集的开发旨在解决语言模型在多样化数据分布下的性能问题，并探索如何有效适应新领域。

M2D2 is a large-scale multi-domain language modeling dataset co-developed by the University of Tokyo and the University of Washington. It comprises 8.5 billion tokens and covers 145 domains, with data primarily extracted from Wikipedia and Semantic Scholar. The dataset is organized using the taxonomies of Wikipedia and ArXiv to form a two-level hierarchical structure, which facilitates research on the relationships between domains and their impacts on model adaptability. M2D2 is particularly suitable for investigating transfer learning of language models across different domains, especially adaptation between fine-grained domains. This dataset was developed to address the performance issues of language models under diverse data distributions and to explore effective approaches for adapting to new domains.

提供机构：

东京大学

创建时间：

2022-10-14

搜集汇总

数据集介绍

构建方式

M2D2数据集的构建依托于维基百科和语义学者（Semantic Scholar）两大权威数据源，通过精心设计的层次化领域提取流程实现。研究团队首先从维基百科的分类体系及arXiv的学科分类中，提取出145个细粒度领域（L2），并将其归纳为22个粗粒度领域组（L1），形成双层领域层次结构。具体而言，维基百科部分通过爬取其分类页面并依据页面内容分配至相应领域；语义学者部分则利用S2ORC学术论文库的元数据，结合arXiv类别进行领域标注。为确保数据纯净性，团队在划分训练、验证和测试集时，严格排除跨领域重叠页面，防止数据泄露，从而构建了一个包含85亿词元、结构清晰的大规模多领域语料库。

特点

M2D2数据集的核心特点在于其细粒度与层次化的领域结构，为语言模型领域适应研究提供了前所未有的实验平台。相较于以往仅涵盖4至20个宽泛领域的数据集，M2D2囊括了从哲学、公共健康到运输等145个人工标注的细粒度领域，这些领域基于维基百科和arXiv的本体论组织成双层层次，使得研究者能够深入探究不同粒度领域间的迁移关系。此外，数据集规模宏大，覆盖多样化的主题与数据源，支持从词汇重叠到领域相关性等多维度分析，为理解模型在异构数据分布下的性能与适应机制奠定了坚实基础。

使用方法

M2D2数据集的使用旨在推动语言模型领域适应研究的深入探索，尤其适用于分析模型在细粒度领域间的迁移性能。研究者可基于其层次化结构，设计多种适应策略，例如直接在粗粒度领域（L1）或细粒度领域（L2）上继续预训练，或采用从粗到细（L1-to-L2）的渐进式适应方法。通过评估模型在领域内及跨领域的困惑度指标，可以系统考察领域特异性与泛化能力之间的权衡关系。此外，数据集的领域对齐设计支持跨本体论（如维基百科与语义学者之间）的迁移实验，助力揭示数据源特性与领域内容对模型性能的交互影响。

背景与挑战

背景概述

M2D2数据集由东京大学与华盛顿大学的研究团队于2022年提出，旨在为语言模型领域适应研究提供细粒度、大规模的多领域语料库。该数据集整合了来自维基百科和语义学者平台的文本，涵盖145个子领域，总计85亿词汇，并依据人类构建的本体论划分为22个高层领域组。其核心研究问题聚焦于探索语言模型在不同粒度领域间的适应机制，特别是如何通过层级化领域结构优化模型在特定领域内的性能与跨领域泛化能力。M2D2的推出为自然语言处理领域提供了首个结合细粒度领域划分与人工层级本体的多领域基准，显著推动了领域适应理论与应用的发展。

当前挑战

M2D2数据集所针对的领域适应问题面临多重挑战。在领域问题层面，语言模型需平衡领域专业化与跨领域泛化能力，细粒度适应虽能提升领域内性能，却可能导致模型在无关领域表现下降；同时，领域间词汇重叠度与内容相似性对迁移效果的影响机制尚不明确。在构建过程中，挑战主要体现在数据采集与组织方面：需从异构数据源中提取并统一细粒度领域标签，确保领域层级结构的逻辑一致性；此外，为避免评估时的数据泄露，必须精确处理跨领域重叠的文本页面，这增加了数据清洗与分割的复杂性。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语言模型的领域适应研究长期面临数据分布单一、领域划分粗糙的挑战。M2D2数据集以其精细的领域划分和层次化结构，为探索语言模型在异构文本数据上的适应机制提供了理想实验平台。该数据集最经典的使用场景在于系统评估不同粒度领域数据对模型性能的影响，研究者通过对比L1（粗粒度）与L2（细粒度）领域的适应效果，揭示了领域特异性数据在提升模型专业能力方面的关键作用。这种多层次实验设计使得学界能够深入探究领域层次结构如何影响知识迁移效率，为构建更智能的领域自适应语言模型奠定了数据基础。

衍生相关工作

基于M2D2数据集的研究催生了多个重要研究方向。在方法学层面，其揭示的层次化适应优势推动了多阶段自适应预训练技术的发展，研究者开始探索更精细的领域混合策略。数据集构建方面，其细粒度领域标注范式启发了Reddit等多源数据的层次化组织研究。理论探索上，关于词汇重叠与迁移性能相关性的发现，促进了基于轻量级指标的领域相似性度量方法创新。这些衍生工作共同深化了学界对语言模型领域适应本质的理解，为后续构建更高效的多领域语言处理系统提供了方法论指导。

数据集最近研究