drt/complex_web_questions

Hugging Face2023-04-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/drt/complex_web_questions

下载链接

链接失效反馈

官方服务：

资源简介：

ComplexWebQuestions是一个新的数据集，包含大量自然语言中的复杂问题，可用于多种方式：通过与搜索引擎交互（这是我们论文的重点）；作为阅读理解任务：我们发布了12,725,989个与问题相关的网页片段，这些片段是在我们模型开发过程中收集的；作为语义解析任务：每个问题都与一个SPARQL查询配对，该查询可以在Freebase上执行以检索答案。数据集包含34,689个示例，分为27,734个训练集、3,480个开发集和3,475个测试集。每个示例包含唯一的ID、原始WebQuestionsSP ID、问题、机器生成的问题、自然语言复杂问题、SPARQL查询、组合类型、答案列表和创建时间。此外，数据集还包含12,725,989个网页片段，每个片段包含相关问题的ID、问题、发送到搜索引擎的查询、分割来源、分割类型和网页片段。数据集的语言为英语。

ComplexWebQuestions is a novel dataset containing a large corpus of complex natural language questions, which supports multiple research applications: interacting with search engines (the core focus of our paper); serving as a reading comprehension task, for which we have released 12,725,989 relevant web passages collected during the development of our model; and acting as a semantic parsing task, where each question is paired with a SPARQL query that can be executed on Freebase to retrieve answers. The dataset comprises 34,689 total examples, split into three subsets: 27,734 training examples, 3,480 development examples, and 3,475 test examples. Each example contains a unique ID, the original WebQuestionsSP ID, the question, the machine-generated question, the natural language complex question, the SPARQL query, the composite type, the answer list, and the creation time. Additionally, the dataset includes 12,725,989 web passages, each of which contains the relevant question ID, the question, the query sent to the search engine, the split source, the split type, and the web passage itself. The language of this dataset is English.

提供机构：

drt

原始信息汇总

数据集卡片 - ComplexWebQuestions

数据集描述

数据集概述

用于回答需要通过多个网页片段进行推理的复杂问题的数据集

ComplexWebQuestions 是一个包含大量自然语言复杂问题的新数据集，可用于多种方式：

通过与搜索引擎交互，这是我们论文的重点（Talmor 和 Berant, 2018）；
作为阅读理解任务：我们发布了 12,725,989 个与问题相关的网页片段，这些片段是在我们模型开发过程中收集的；
作为语义解析任务：每个问题都配有一个可以针对 Freebase 执行的 SPARQL 查询以检索答案。

支持的任务和排行榜

[更多信息需要]

语言

英语

数据集结构

问题文件

数据集包含 34,689 个示例，分为 27,734 个训练集、3,480 个开发集和 3,475 个测试集。每个示例包含以下字段：

"ID": 示例的唯一 ID； "webqsp_ID": 问题构建的原始 WebQuestionsSP ID； "webqsp_question": 问题构建的原始 WebQuestionsSP 问题； "machine_question": 改写前的复杂人工问题； "question": 自然语言的复杂问题； "sparql": 针对该问题的 Freebase SPARQL 查询。注意，SPARQL 是为人工问题构建的，改写后的实际问题可能与 SPARQL 不同； "compositionality_type": 组合类型的估计。{composition, conjunction, comparative, superlative}。该估计未经过人工验证，改写后的问题可能与此估计不同； "answers": 包含答案的列表，每个答案包含 answer: 实际答案；answer_id: Freebase 答案 ID；aliases: Freebase 提取的答案别名； "created": 创建时间

注意：测试集不包含“answer”字段。对于测试评估，请发送电子邮件至 alontalmor@mail.tau.ac.il。

网页片段文件

网页片段文件包含 12,725,989 个片段，每个片段包含以下字段：

"question_ID": 相关问题的 ID，至少包含 3 个相同 ID 的实例（完整问题、split1、split2）； "question": 自然语言的复杂问题； "web_query": 发送到搜索引擎的查询； “split_source”: noisy supervision split 或 ‘ptrnet split’，请在比较 Split+Decomp 时使用包含“ptrnet split”的示例进行训练； “split_type”: full_question 或 ‘split_part1 或 ‘split_part2’，请在组合类型的问题和 split_type: “split_part1” 的情况下使用“composition_answer”进行阅读理解模型的训练，如 Split+Decomp 所述； "web_snippets": 每个查询约 100 个网页片段。每个片段包括 Title, Snippet。它们按照 Google 结果排序。

总计：

10,035,571 个训练集片段
1,350,950 个开发集片段
1,339,468 个测试集片段

源数据

原始文件可以在 Dropbox 链接找到。

许可信息

未指定

引用信息

@inproceedings{talmor2018web, title={The Web as a Knowledge-Base for Answering Complex Questions}, author={Talmor, Alon and Berant, Jonathan}, booktitle={Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)}, pages={641--651}, year={2018} }

贡献

感谢 happen2me 为该数据集做出的贡献。

搜集汇总

数据集介绍

构建方式

ComplexWebQuestions数据集的构建基于对复杂问题的深入分析与处理。该数据集通过从WebQuestionsSP数据集中提取问题，并进一步生成人工复杂问题，结合自然语言处理技术，构建出34,689个复杂问题实例。每个问题实例不仅包含自然语言问题，还附带了相应的SPARQL查询语句，用于从Freebase中检索答案。此外，数据集还包含了12,725,989个与问题相关的网页片段，这些片段是通过与搜索引擎交互获取的，为模型提供了丰富的上下文信息。

特点

ComplexWebQuestions数据集的显著特点在于其问题复杂性和多样性。数据集中的问题不仅需要多步推理，还涉及多种组合类型，如组合、连接、比较和最高级等。此外，数据集提供了详细的SPARQL查询语句和网页片段，使得模型可以在多种任务中进行训练和评估，包括阅读理解、语义解析和知识库问答等。

使用方法

ComplexWebQuestions数据集可用于多种自然语言处理任务。对于阅读理解任务，研究者可以利用提供的网页片段进行训练和评估。对于语义解析任务，数据集中的SPARQL查询语句可以直接用于模型训练。此外，数据集还支持与搜索引擎的交互，使得模型能够在真实环境中进行测试。使用时，建议参考数据集的官方文档和相关论文，以确保正确理解和应用数据集的特性。

背景与挑战

背景概述

ComplexWebQuestions数据集由Talmor和Berant于2018年创建，旨在解决复杂问题回答（Complex Question Answering, CQA）领域的核心研究问题。该数据集包含34,689个复杂问题，这些问题需要通过推理多个网页片段来回答，从而推动了自然语言处理和知识图谱领域的研究。数据集的构建不仅支持与搜索引擎的交互，还可用作阅读理解任务和语义解析任务，为研究者提供了丰富的资源。其影响力在于，它不仅为复杂问题的自动回答提供了基准，还促进了多任务学习模型的开发。

当前挑战

ComplexWebQuestions数据集面临的主要挑战包括：首先，构建过程中需要从大量网页片段中提取相关信息，这要求高效的文本处理和信息抽取技术。其次，复杂问题的生成和解析需要精确的语义理解和推理能力，这对现有的自然语言处理模型提出了高要求。此外，数据集的多样性和复杂性使得模型在处理不同类型的问题时面临泛化能力的挑战。最后，测试集的答案未公开，研究者需通过邮件获取评估结果，这在一定程度上增加了数据集的使用难度。

常用场景

经典使用场景

ComplexWebQuestions数据集的经典使用场景在于其能够支持复杂问题的推理与回答，尤其是在需要结合多个网页片段进行推理的场景中。该数据集不仅适用于与搜索引擎交互以获取答案，还可作为阅读理解任务，通过提供的12,725,989个网页片段进行训练和评估。此外，它还支持语义解析任务，通过SPARQL查询与Freebase进行交互，从而实现对复杂问题的自动化回答。

实际应用

在实际应用中，ComplexWebQuestions数据集可用于构建智能问答系统，特别是在需要处理复杂查询的场景中，如在线教育、智能客服和信息检索系统。通过利用该数据集训练的模型，系统能够更准确地理解用户提出的复杂问题，并从多个网页片段中提取相关信息，提供更为精准和全面的答案，从而提升用户体验。

衍生相关工作

ComplexWebQuestions数据集的发布催生了一系列相关研究工作，特别是在知识库问答和阅读理解领域。例如，基于该数据集的研究提出了多种模型和方法，如Split+Decomp模型，用于处理复杂问题的分解与推理。此外，该数据集还推动了语义解析技术的发展，促进了SPARQL查询与自然语言问题之间的映射研究，为后续的复杂问题回答技术奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集