NewsAS2, TriviaAS2, SearchAS2, HotpotAS2

github2022-12-01 更新2024-05-31 收录

下载链接：

https://github.com/lucadiliello/answer-selection

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集是为Answer Sentence Selection任务新创建的，旨在提供比现有数据集更大的规模和更高的挑战性。每个数据集都从现有的QA数据集（如NewsQA, TriviaQA, SearchQA, HotpotQA）衍生而来，用于训练和测试AS2系统。

These datasets are newly created for the Answer Sentence Selection task, aiming to provide a larger scale and higher level of challenge compared to existing datasets. Each dataset is derived from existing QA datasets (such as NewsQA, TriviaQA, SearchQA, HotpotQA) and is used for training and testing AS2 systems.

创建时间：

2022-11-29

原始信息汇总

数据集概述

数据集名称

NewsAS2
TriviaAS2
SearchAS2
HotpotAS2

数据集来源

基于NewsQA
基于TriviaQA
基于SearchQA
基于HotpotQA

数据集统计

Dataset	Training set		Validation set		Test set
	# Q	# QA pairs	# Q	# QA pairs	# Q	# QA pairs
NewsAS2	71561	1840533	2102	51844	2083	51472
TriviaAS2	61688	1843349	3933	117012	3852	114853
SearchAS2	117220	3281909	8509	236360	8470	236792
HotpotAS2	72921	489238	2989	25295	2912	24846

基线性能

`NewsAS2`

Model	MAP	MRR	P@1
RoBERTa Base	82.4 (0.2)	85.2 (0.3)	76.4 (0.6)
ELECTRA Base	82.0 (0.2)	84.8 (0.2)	76.0 (0.2)

`TriviaAS2`

Model	MAP	MRR	P@1
RoBERTa Base	76.9 (0.6)	82.2 (0.5)	73.1 (0.5)
ELECTRA Base	73.3 (0.7)	79.1 (1.1)	68.9 (1.3)

`SearchAS2`

Model	MAP	MRR	P@1
RoBERTa Base	84.1 (0.2)	88.1 (0.3)	82.1 (0.5)
ELECTRA Base	83.0 (0.1)	87.3 (0.2)	80.3 (0.4)

`HotpotAS2`

Model	MAP	MRR	P@1
RoBERTa Base	92.6 (0.2)	93.5 (0.2)	90.4 (0.3)
ELECTRA Base	92.9 (0.1)	93.5 (0.1)	89.5 (0.1)

搜集汇总

数据集介绍

构建方式

NewsAS2、TriviaAS2、SearchAS2和HotpotAS2数据集的构建灵感来源于ASNQ数据集，旨在为答案句子选择（AS2）任务提供更具挑战性的大规模数据支持。这些数据集分别基于NewsQA、TriviaQA、SearchQA和HotpotQA四个知名问答数据集进行扩展和优化。构建过程中，原始验证集被进一步划分为开发集和测试集，以确保标签的非隐藏性，从而为模型评估提供更全面的数据支持。

特点

该系列数据集以其大规模和高复杂性著称，涵盖了新闻、百科、搜索和多跳推理等多个领域的问答对。每个数据集均包含数十万至数百万的问答对，显著超越了传统AS2数据集的规模。此外，数据集的问答对分布广泛，涵盖了多样化的主题和语境，为模型训练和评估提供了丰富的语义信息。通过引入多领域的问答数据，这些数据集能够更好地模拟真实世界的问答场景，推动AS2任务的技术进步。

使用方法

用户可通过Huggingface平台轻松获取NewsAS2、TriviaAS2、SearchAS2和HotpotAS2数据集。首先，需安装并升级`datasets`库，随后通过Python代码加载所需数据集。加载后，用户可直接访问训练集、开发集和测试集，进行模型训练、验证和测试。数据集的标准化格式和丰富的问答对使其适用于多种自然语言处理任务，如答案句子选择、问答系统开发和语义匹配等。通过结合基线模型的性能指标，用户可快速评估和改进其模型的性能。

背景与挑战

背景概述

NewsAS2、TriviaAS2、SearchAS2和HotpotAS2是近年来为回答句子选择（Answer Sentence Selection, AS2）任务而构建的大规模数据集。这些数据集由研究人员基于现有的问答数据集（如NewsQA、TriviaQA、SearchQA和HotpotQA）开发，旨在解决传统AS2数据集（如WikiQA和TREC-QA）规模小、挑战性不足的问题。这些新数据集的推出，为自然语言处理领域的研究者提供了更丰富的数据资源，推动了AS2任务的性能提升。通过引入大规模数据，研究者能够更有效地训练和评估模型，从而推动该领域的技术进步。

当前挑战

尽管NewsAS2等数据集在规模和多样性上显著优于传统数据集，但仍面临诸多挑战。首先，AS2任务的核心挑战在于如何从大量候选句子中准确选择出与问题最相关的答案，这对模型的语义理解能力提出了极高要求。其次，数据集的构建过程中，如何确保数据的高质量和多样性也是一个关键问题。此外，由于这些数据集来源于不同的领域（如新闻、百科、搜索等），模型需要具备跨领域的泛化能力，这对模型的鲁棒性提出了更高要求。最后，如何在大规模数据上高效训练模型，同时避免过拟合，也是研究者需要解决的重要问题。

常用场景

经典使用场景

在自然语言处理领域，NewsAS2、TriviaAS2、SearchAS2和HotpotAS2数据集被广泛应用于答案句子选择（Answer Sentence Selection, AS2）任务。这些数据集通过提供大规模的问答对，帮助研究人员训练和评估模型在复杂语境下的答案选择能力。特别是在问答系统和信息检索系统中，这些数据集为模型提供了丰富的训练样本，使其能够在多样化的文本中准确识别出最相关的答案。

解决学术问题

这些数据集解决了传统AS2数据集规模小、挑战性不足的问题。通过引入大规模、多样化的问答对，研究人员能够更全面地评估模型的性能，推动模型在复杂语境下的表现提升。此外，这些数据集还为研究社区提供了新的基准，促进了AS2任务的算法创新和性能优化，推动了自然语言处理领域的前沿发展。

衍生相关工作

基于这些数据集，研究社区已经衍生出多项经典工作。例如，RoBERTa和ELECTRA等预训练模型在这些数据集上进行了广泛的实验，展示了其在AS2任务中的卓越性能。此外，这些数据集还激发了更多关于多任务学习、迁移学习和上下文感知模型的研究，推动了自然语言处理技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集