M2QA

github2024-06-06 更新2024-06-08 收录

下载链接：

https://github.com/UKPLab/m2qa

下载链接

链接失效反馈

官方服务：

资源简介：

M2QA是一个多领域多语言问答基准数据集，用于评估语言和领域转移。该数据集包含13,500个SQuAD 2.0风格的德语、土耳其语和中文的问题-答案实例，涵盖产品评论、新闻和创意写作领域。

M2QA is a multi-domain, multilingual question-answering benchmark dataset designed to evaluate language and domain transfer. The dataset comprises 13,500 SQuAD 2.0-style question-answer instances in German, Turkish, and Chinese, spanning the domains of product reviews, news, and creative writing.

创建时间：

2024-05-23

原始信息汇总

数据集概述

名称： M2QA: A Multi-domain Multilingual Question Answering Benchmark Dataset

描述： M2QA是一个用于评估语言和领域转移的抽取式问答基准数据集。该数据集包含13,500个SQuAD 2.0风格的问答实例，涵盖德语、土耳其语和中文，涉及产品评论、新闻和创意写作三个领域。

数据组成：

主要数据集： 包含13,500个问答实例，平均分布在九个语言-领域组合中（每个组合1500个实例）。其中40%的问题无法回答，60%的问题可以回答。
额外训练数据： 提供五个领域-语言组合的额外训练数据，总计7500个训练实例。

数据存储：

主要数据集和额外训练数据均存储在m2qa_dataset/目录中，并在Hugging Face上提供：https://huggingface.co/datasets/UKPLab/m2qa。

数据特性：

数据加密以防止泄露到大型语言模型（LLM）训练数据集中。
中文数据在“创意写作”和“产品评论”领域不包含空格，影响XLM-RoBERTa的性能，通过添加空格可显著提升性能。

许可证：

数据集遵循CC-BY-ND 4.0许可证。
代码遵循Apache License 2.0。

搜集汇总

数据集介绍

构建方式

M2QA数据集的构建基于SQuAD 2.0风格的问题回答实例，涵盖了德语、土耳其语和中文三种语言，并涉及产品评论、新闻和创意写作三个领域。该数据集包含13,500个实例，均匀分布在九个语言-领域组合对中，每个组合对包含1500个实例。其中，40%的实例为不可回答问题，60%为可回答问题。此外，还提供了额外的7500个训练实例，用于五个领域-语言对。

特点

M2QA数据集的主要特点在于其多领域和多语言的特性，旨在评估语言和领域转移的联合效果。数据集中的实例设计为SQuAD 2.0风格，确保了问题和答案的结构一致性。此外，数据集还包括了不可回答的问题，以增强模型的鲁棒性。通过加密处理，数据集防止了数据泄露到大型语言模型的训练数据中。

使用方法

M2QA数据集可通过Hugging Face平台访问，用户可以轻松下载并使用。数据集的目录结构清晰，提供了详细的README文件，指导用户如何使用数据集进行实验。此外，该数据集还附带了实验代码，用户可以复现研究中的所有实验，包括模型评估和性能提升的实验。对于希望深入研究多领域多语言问答系统的研究人员，M2QA提供了一个全面的资源。

背景与挑战

背景概述

M2QA（Multi-domain Multilingual Question Answering）数据集由德国达姆施塔特工业大学的UKP实验室开发，旨在评估多领域多语言问答系统的联合语言和领域迁移能力。该数据集包含13,500个SQuAD 2.0风格的问答实例，涵盖德语、土耳其语和中文，涉及产品评论、新闻和创意写作三个领域。M2QA的创建标志着在多语言和多领域问答系统研究中的一个重要里程碑，其研究成果发表于2024年的EMNLP会议，由Leon Engländer、Hannah Sterz等研究人员共同完成。

当前挑战

M2QA数据集在构建和应用过程中面临多项挑战。首先，多语言和多领域的问答系统需要处理不同语言和领域间的复杂迁移问题，这要求模型具备高度的语言和领域适应性。其次，SQuAD 2.0评估指标在多语言环境下的适用性受到质疑，尤其是对于缺乏空格分隔的语言如中文，传统的评估方法可能失效。此外，数据集的加密发布旨在防止数据泄露至大型语言模型训练数据中，这增加了数据使用的复杂性。最后，尽管现代大型语言模型（LLMs）在某些领域表现优异，但在目标领域的表现仍显著低于源领域，这凸显了进一步研究联合语言和领域迁移方法的必要性。

常用场景

经典使用场景

M2QA数据集在多领域多语言问答系统中展现了其经典应用场景。该数据集包含13,500个SQuAD 2.0风格的问答实例，涵盖德语、土耳其语和中文，涉及产品评论、新闻和创意写作三个领域。通过这些丰富的语言和领域组合，M2QA为研究人员提供了一个全面的基准，用于评估和优化多语言和多领域的问答模型。

衍生相关工作

M2QA数据集催生了多项相关研究工作。例如，基于M2QA的研究揭示了XLM-RoBERTa模型在处理中文数据时的性能提升方法，通过简单的空白字符添加来优化模型表现。此外，M2QA还推动了新的评估指标的开发，以适应多语言问答系统的特殊需求，进一步丰富了自然语言处理领域的研究内容。

数据集最近研究