ANTIQUE

Name: ANTIQUE
Creator: 马萨诸塞大学阿默斯特分校智能信息检索中心
Published: 2019-08-19 15:41:43
License: 暂无描述

arXiv2019-08-19 更新2024-06-21 收录

下载链接：

https://ciir.cs.umass.edu/downloads/Antique/

下载链接

链接失效反馈

官方服务：

资源简介：

ANTIQUE是一个非事实性问答数据集，由马萨诸塞大学阿默斯特分校智能信息检索中心创建，包含2,626个开放领域的非事实性问题，这些问题来自Yahoo! Answers社区问答服务。数据集大小为34,011个手动相关性标注，数据来源于真实用户提问。创建过程中，通过多轮众包和自动及手动质量检查收集了四级相关性判断。ANTIQUE的应用领域是提高现代信息检索系统中非事实性问题的答案段落检索质量，旨在解决现有数据集在相关性判断和问题多样性方面的不足。

ANTIQUE is a non-factoid question answering dataset created by the Center for Intelligent Information Retrieval at the University of Massachusetts Amherst. It consists of 2,626 open-domain non-factoid questions sourced from the Yahoo! Answers community question answering service. The dataset includes 34,011 manually annotated relevance judgments derived from real user queries. During its development, four-level relevance judgments were collected through multi-round crowdsourcing combined with both automatic and manual quality checks. The target application scenario of ANTIQUE is to improve the quality of answer passage retrieval for non-factoid questions in modern information retrieval systems, aiming to address the shortcomings of existing datasets in terms of relevance judgment and question diversity.

提供机构：

马萨诸塞大学阿默斯特分校智能信息检索中心

创建时间：

2019-05-22

搜集汇总

数据集介绍

构建方式

ANTIQUE数据集的构建基于从Yahoo!Answers社区问答服务中收集的真实用户提出的问题。该数据集包含了2,626个开放领域的非事实性问题，这些问题涵盖了多个类别，并由真实用户在社区问答服务中提出。为了收集答案的相关性判断，研究人员通过众包的方式，对每个问题的所有答案进行了四级相关性的标注。为了保证标注的质量和可靠性，研究人员在众包过程中进行了多轮迭代和自动与手动质量检查。此外，研究人员还通过在多个检索模型上进行结果汇总后对答案进行标注，以获取更可靠和全面的相关性判断。

使用方法

使用ANTIQUE数据集进行非事实性问题问答模型的研究时，首先需要对数据集进行预处理和划分，将数据集分为训练集和测试集。然后，可以使用训练集中的问题-答案对进行模型训练，并使用测试集中的问题-答案对进行模型评估。在评估过程中，可以使用数据集提供的四级相关性标注来计算模型的准确率、召回率和F1值等指标。此外，还可以使用数据集提供的答案长度分布等信息来分析模型的性能和改进方向。

背景与挑战

背景概述

在信息检索系统领域，随着智能手机、语音助手等设备的普及，对于非事实性问题的答案段落检索的需求日益增长。非事实性问题通常需要复杂的答案，如描述、意见或解释，并且多为段落级文本。然而，尽管该任务的重要性日益凸显，但学术界仍缺乏大规模的非事实性问答数据集，这些数据集应包含真实的问题和全面的相关性判断。为此，Hashemi等人于2019年8月发布了ANTIQUE数据集，该数据集收集了来自Yahoo!Answers社区问答服务的2626个开放域非事实性问题，并包含34011个手动相关性标注。ANTIQUE数据集旨在为非事实性问题答案段落检索研究提供一个高质量的基准，并促进该领域的研究进展。

当前挑战

ANTIQUE数据集面临的主要挑战包括：1)如何有效地检索包含复杂答案的非事实性问题，这些答案往往需要理解和分析整个段落或句子；2)如何为非事实性问题提供全面的相关性判断，以便于模型训练和评估；3)如何构建一个包含真实问题和全面相关性标注的大规模数据集，以便于研究人员进行实证研究。为了应对这些挑战，ANTIQUE数据集采用了多阶段众包和专家标注相结合的方式进行数据收集和标注，并提供了多种基准结果，以展示该数据集在非事实性问题答案段落检索研究中的独特挑战和重要性。

常用场景

经典使用场景

在当今信息检索领域，非事实性问答（Non-Factoid Question Answering）任务正变得越来越重要，尤其是在移动设备和语音搜索的普及背景下。ANTIQUE数据集正是一个专注于非事实性问答任务的数据集，它包含了从Yahoo!Answers社区问答服务中收集的2626个开放域非事实性问题，以及34011个人工相关度标注。ANTIQUE数据集的经典使用场景包括训练和评估非事实性问答模型，帮助研究者理解和改进问答系统的性能，尤其是在处理需要复杂答案的问题时。通过使用ANTIQUE数据集，研究者可以构建更加智能的信息检索系统，以更好地满足用户的需求。

解决学术问题

ANTIQUE数据集的发布填补了非事实性问答领域的一个空白，即缺乏大规模、高质量的数据集。以往的数据集要么规模较小，不足以训练复杂的机器学习模型；要么标注不完整，无法准确评估模型性能。ANTIQUE数据集不仅规模大，而且标注完整，提供了四个等级的相关度标注，使得研究者可以更全面地评估模型性能。此外，ANTIQUE数据集的问题来自于真实用户，更加贴近实际应用场景，有助于提高问答系统的实用性和用户满意度。

实际应用

在实际应用场景中，ANTIQUE数据集可以用于开发更加智能的问答系统，这些系统可以更好地理解用户的问题，并给出更加准确、全面的答案。例如，在智能客服系统中，使用ANTIQUE数据集训练的模型可以帮助客服人员更好地理解用户的问题，并提供更加精准的答案，从而提高用户满意度。此外，ANTIQUE数据集还可以用于开发智能搜索引擎，帮助用户更快地找到所需的信息。通过使用ANTIQUE数据集训练的模型，搜索引擎可以更好地理解用户的问题，并提供更加相关、有用的搜索结果。

数据集最近研究