COMPLEXWEBQUESTIONS

Name: COMPLEXWEBQUESTIONS
Creator: 特拉维夫大学
Published: 2018-07-25 22:15:40
License: 暂无描述

arXiv2018-07-25 更新2024-06-21 收录

下载链接：

https://www.tau-nlp.org/compwebq

下载链接

链接失效反馈

官方服务：

资源简介：

COMPLEXWEBQUESTIONS是由特拉维夫大学创建的一个问答数据集，专注于通过分解复杂问题为一系列简单问题并从网络片段中提取答案。数据集包含34,689个示例，每个示例包括一个问题、正确答案及包含网络片段的文档。数据集的创建过程涉及从WEBQUESTIONS数据集中抽样问题-查询对，自动生成更复杂的SPARQL查询，并通过Amazon Mechanical Turk工人将其改写为自然语言。该数据集主要用于训练阅读理解模型，以解决复杂的问答问题。

COMPLEXWEBQUESTIONS is a question answering dataset developed by Tel Aviv University, focusing on decomposing complex questions into a series of simple ones and extracting answers from web snippets. The dataset contains 34,689 instances, each consisting of a question, a correct answer, and a document with web snippets. Its construction process involves sampling question-query pairs from the WEBQUESTIONS dataset, automatically generating more complex SPARQL queries, and then rewriting them into natural language via Amazon Mechanical Turk workers. This dataset is primarily used for training reading comprehension models to address complex question answering tasks.

提供机构：

特拉维夫大学

创建时间：

2018-07-25

搜集汇总

数据集介绍

构建方式

在复杂问答领域，数据集的构建需兼顾问题的多样性与逻辑深度。COMPLEXWEBQUESTIONS数据集以WEBQUESTIONSSP为基础，通过自动化规则扩展SPARQL查询结构，生成更具复杂性的问题。具体而言，研究团队从原始简单问题出发，引入额外关系术语，形成复合查询，随后借助亚马逊众包平台将机器生成的问题转化为自然语言表达。答案通过执行扩展后的SPARQL查询在Freebase知识库中获取，并配以网络片段文档，最终构建出包含34,689个样本的大规模语料库。

特点

该数据集的核心特征在于其问题的复合性与结构化表示。每个样本均由自然语言问题、答案及关联网络片段组成，问题多涉及多跳推理与实体关系交织，例如“泰勒·洛特纳主演且由尼娜·普罗克特设计服装的电影有哪些？”。数据集特别强调对语义分解能力的考察，支持将复杂问题拆解为简单子问题序列。此外，数据集中存在基于种子问题的衍生关系，促使后续研究提出了以种子问题划分的版本1.1，以消除训练与测试集间的信息泄露，提升了评估的严谨性。

使用方法

使用COMPLEXWEBQUESTIONS时，研究者可灵活选择两种主要范式。一是直接利用预检索的网络片段文档，基于阅读理解模型从中抽取答案；二是动态调用搜索引擎获取实时片段，以模拟开放域问答场景。典型方法包括SIMPQA（整体处理复杂问题）与SPLITQA（先分解后重组），并可结合预训练或数据集微调的阅读理解模型。评估采用精确率@1指标，通过对比不同模型在版本1.0与1.1上的表现，能够有效衡量系统对真实复杂推理的掌握程度，而非依赖数据偏差。

背景与挑战

背景概述

在自然语言处理领域，复杂问答系统的发展长期受限于高质量数据集的稀缺。2018年，特拉维夫大学的Alon Talmor与Jonathan Berant等人推出了COMPLEXWEBQUESTIONS数据集，旨在通过分解复杂问题为序列化简单子问题，并基于网络片段检索答案，以推动开放域复杂问答研究。该数据集源自WEBQUESTIONSSP，通过自动化规则扩展SPARQL查询并生成自然语言问题，最终包含约3.5万个样本，其构建过程融合了语义解析与人工校验，显著提升了模型处理多跳推理与实体关联的能力，成为评估问答系统复杂理解能力的重要基准。

当前挑战

COMPLEXWEBQUESTIONS数据集面临的核心挑战体现在问题构建与评估两方面。在领域问题层面，复杂问答需模型具备多步推理、语义分解及跨文档信息整合能力，而数据集中问题常涉及嵌套实体与时序逻辑，对现有阅读理解模型构成严峻考验。构建过程中，初始版本因随机划分训练集与测试集，导致源自相同种子问题的问题对同时出现在两者中，引发数据泄露问题，使模型可能学习到虚假关联而非真实推理模式。这一缺陷在后续版本中通过基于种子问题的重新划分得以缓解，但如何确保问题多样性与评估无偏性仍是持续挑战。

常用场景

经典使用场景

在复杂问答系统研究领域，COMPLEXWEBQUESTIONS数据集常被用于评估模型处理多跳推理与信息整合的能力。该数据集通过将复杂问题分解为一系列简单子问题，并基于网络片段提取答案，为研究者提供了模拟真实网络搜索场景的标准化测试平台。其经典应用场景包括训练和验证端到端问答模型，特别是那些需要结合阅读理解与信息检索技术的混合架构，为探索复杂语义理解与知识融合机制奠定了实验基础。

实际应用

在实际应用层面，该数据集支撑的模型技术已渗透至智能搜索引擎与虚拟助手领域。基于其训练的多跳问答系统能够处理用户提出的复合查询，例如“同时满足多个条件的实体检索”或“跨时间维度的属性追踪”，显著提升了商业搜索引擎处理复杂信息需求的能力。这些技术还被应用于知识图谱补全、智能客服系统以及教育领域的自动答疑平台，实现了从学术研究到产业落地的价值转化。

衍生相关工作

该数据集催生了多个里程碑式的研究工作，例如Talmor和Berant提出的SPLITQA架构将复杂问题分解与阅读理解相结合。后续研究在此基础上发展了动态推理路径生成、神经语义解析器增强等创新方法。同时，其数据划分问题引发的讨论促进了机器学习社区对数据集构造严谨性的关注，间接推动了如HotpotQA等多跳问答数据集的构建范式革新，形成了复杂问答研究领域的良性技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集