WebQuestions QA Benchmarking Dataset

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/brmson/dataset-factoid-webquestions

下载链接

链接失效反馈

官方服务：

资源简介：

WebQuestions是一个流行的数据集，用于基准测试QA引擎，特别是那些在结构化知识库上工作的引擎。该数据集通过为每个问题分配唯一ID并提供额外的注释来使其更加组织化和易于使用。此外，还提供了几个基于主题的分割。

WebQuestions is a popular dataset utilized for benchmarking QA engines, particularly those operating on structured knowledge bases. The dataset is organized and made more user-friendly by assigning a unique ID to each question and providing additional annotations. Furthermore, it offers several topic-based segments.

创建时间：

2015-07-04

原始信息汇总

数据集概述

数据集名称

WebQuestions QA Benchmarking Dataset

数据集目的

用于基准测试QA引擎，特别是那些针对结构化知识库工作的引擎。

数据集版本

这是一个开发版本，使用时需引用Git仓库和最后提交的日期+shortid。

数据集许可证

CC-BY 4.0

数据集结构

main/: 包含数据集的分发分割。
d-dump/: 包含来自YodaQA的问题转储。
d-freebase/: 包含问题到单个Freebase键的映射。
d-freebase-mids/: 包含每个问题中每个概念的Freebase mids。
d-freebase-rp/: 包含自定义计算的Freebase关系路径。
d-freebase-brp/: 包含自定义计算的分支Freebase关系路径。
d-entities/: 包含在问题文本中检测到的实体出现。
t-movies/: 包含与电影主题相关的问题子分割。

数据集分割

train (3778 q)
test (2032 q)
devtest (189 q)
val (755 q)
trainmodel (2834 q)

数据模型

问题标识符格式："wqr%06d" (train) 或 "wqs%06d" (test)
主JSON文件包含每个问题的单个对象，具有"qId"、"qText"和"answers"属性。

数据集生成脚本

scripts/dump-refresh.sh: 用于重新生成某些子分割。
scripts/mktrain.py: 用于生成完整的train分割的.json文件。
scripts/fulldata.py: 用于构建每个分割的完整数据文件。
scripts/json2tsv.pl: 用于构建YodaQA兼容的TSV格式数据集。

搜集汇总

数据集介绍

构建方式

WebQuestions QA Benchmarking Dataset的构建基于原始的WebQuestions数据集，通过为其分配唯一ID并添加额外的注释，如问题与Freebase的关联，以及基于YodaQA系统的实体链接结果生成的Freebase mids。此外，数据集还提供了多个主题相关的子分割，如电影主题的子分割。这些子分割部分是通过YodaQA系统自动生成的，用户可以通过运行特定的脚本重新生成这些子分割。

使用方法

使用WebQuestions QA Benchmarking Dataset时，用户可以选择使用完整的训练集或其子分割进行模型训练和验证。数据集提供了多个脚本，如mktrain.py用于生成完整的训练集JSON文件，fulldata.py用于构建包含完整数据的单个文件，以及json2tsv.pl用于生成YodaQA兼容的TSV格式数据集。用户应根据研究需求选择合适的分割和格式，并确保在报告中明确使用的数据集部分。

背景与挑战

背景概述

WebQuestions QA Benchmarking Dataset，由Berant等人于2013年创建，是一个广泛应用于问答系统基准测试的数据集。该数据集特别针对基于结构化知识库的问答引擎，旨在评估这些系统在处理复杂查询时的性能。通过为每个问题分配唯一ID并提供额外的注释，如问题相关性和Freebase映射，该数据集不仅提高了使用的便捷性，还为研究者提供了丰富的资源。其发布标志着问答系统领域的一个重要里程碑，为后续研究提供了坚实的基础。

当前挑战

尽管WebQuestions QA Benchmarking Dataset在问答系统领域具有重要地位，但其构建和使用过程中仍面临诸多挑战。首先，数据集的动态性要求用户在使用时需引用最新的Git仓库提交记录，以确保数据格式和内容的稳定性。其次，数据集的复杂结构和多样化的子集划分，如d-dump、d-freebase-*等，增加了数据处理的难度。此外，如何有效利用这些子集进行模型训练和验证，避免过拟合，也是研究者需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，WebQuestions QA Benchmarking Dataset 被广泛用于评估和优化问答系统的性能。该数据集特别适用于基于结构化知识库的问答引擎，通过提供丰富的标注信息和多样的主题分割，使得研究人员能够更精确地测试和改进其模型。例如，研究人员可以利用该数据集进行模型训练、验证和测试，以确保其问答系统在不同主题和场景下的鲁棒性和准确性。

解决学术问题

WebQuestions QA Benchmarking Dataset 解决了问答系统在处理复杂查询时面临的多个学术挑战。首先，它通过提供详细的标注和多样的主题分割，帮助研究人员更好地理解和处理自然语言查询。其次，该数据集的结构化设计使得模型能够在训练和验证过程中避免过拟合，从而提高模型的泛化能力。此外，通过引入额外的Freebase映射和关系路径，该数据集还促进了知识图谱在问答系统中的应用研究。

实际应用

在实际应用中，WebQuestions QA Benchmarking Dataset 为开发智能问答系统提供了宝贵的资源。例如，搜索引擎和虚拟助手可以通过该数据集进行训练和优化，以提高其对用户查询的理解和响应能力。此外，教育领域的智能辅导系统和医疗领域的智能诊断系统也可以利用该数据集来增强其问答功能，从而提供更精准和个性化的服务。

数据集最近研究