WebQuestions QA Benchmarking Dataset

github2019-03-01 更新2024-05-31 收录

下载链接：

https://github.com/pokbe/dataset-factoid-webquestions

下载链接

链接失效反馈

官方服务：

资源简介：

WebQuestions是一个流行的数据集，用于基准测试QA引擎，特别是那些在结构化知识库上工作的引擎。该数据集通过为每个问题分配唯一ID，并提供额外的注释，如问题和Freebase的相关性，以及基于主题的分割，使其更加组织化和易于使用。

WebQuestions is a popular dataset used for benchmarking question answering (QA) engines, especially those tailored for structured knowledge bases. This dataset is rendered more organized and user-friendly by assigning a unique identifier to each question, alongside supplementary annotations including the relevance between each question and Freebase, as well as topic-based splitting.

创建时间：

2019-02-21

原始信息汇总

WebQuestions QA Benchmarking Dataset

概述

WebQuestions是一个用于基准测试QA引擎的数据集，特别是那些处理结构化知识库的引擎。该数据集经过整理，每个问题都分配了一个唯一ID，并提供了额外的注释，例如与问题和Freebase相关的信息。此外，还提供了几个基于主题的拆分。

数据集版本

这是一个开发版本的数据集，使用时请引用Git仓库和最后一次提交的日期及短ID。数据格式和问题集目前没有稳定性保证。该数据集遵循CC-BY 4.0许可协议。

数据目录

main/：包含数据集的拆分。
d-dump/：包含来自YodaQA的问题转储。
d-freebase/：包含从问题到单个Freebase键的映射。
d-freebase-mids/：包含每个问题中每个概念的Freebase mids。
d-freebase-rp/：包含额外自定义计算的Freebase关系路径。
d-freebase-brp/：包含额外自定义计算的分支Freebase关系路径。
d-entities/：包含在问题文本中检测到的实体出现。
t-movies/：包含与电影主题相关的问题子拆分。

拆分

原始WebQuestions数据集包含train（3778个问题）和test（2032个问题）拆分。该数据集保留了这些问题在其各自的拆分中，但将train进一步拆分为几个子拆分，以利于机器学习方法的应用：

devtest（189个问题）：用于开发但不适用于训练模型的问题集。
val（755个问题）：验证集，用于测试模型性能。
trainmodel（2834个问题）：用于模型训练的问题集。

数据模型

问题标识符采用"wqr%06d"（train）或"wqs%06d"（test）的形式，其中%06d是基于原始数据集顺序分配的六位数。主JSON文件包含每个问题的对象，每个对象具有字符串属性"qId"、字符串属性"qText"和一个字符串数组属性"answers"。

数据生成

生成包含完整train拆分的.json文件，运行scripts/mktrain.py。
构建每个拆分的包含每个问题完整数据的单个文件，运行scripts/fulldata.py。
构建YodaQA兼容的TSV格式数据集，运行scripts/json2tsv.pl。

搜集汇总

数据集介绍

构建方式

WebQuestions QA Benchmarking Dataset 是针对结构化知识库上的问答引擎进行基准测试的知名数据集。该数据集的构建主要依托于原始WebQuestions数据集，对其中的问题进行了唯一性标识的赋予，并提供了与问题相关的Freebase映射等额外注释。此外，数据集还包含了基于YodaQA系统自动生成的子集，如问题.dump文件和问题到Freebase键的映射等。

使用方法

使用该数据集时，用户可以根据需求选择不同的数据子集，例如训练集、验证集以及测试集等。生成完整的训练集.json文件可以通过执行`scripts/mktrain.py`脚本来完成。此外，为了构建适用于YodaQA的数据集，可以使用`scripts/json2tsv.pl`脚本来生成TSV格式的数据。用户在训练模型时，应确保报告是否使用了子集或完整训练集，并可以使用`devtest`和`val`组合作为验证集。

背景与挑战

背景概述

WebQuestions QA Benchmarking Dataset（WebQuestions问答基准数据集）是由斯坦福大学自然语言处理小组的Berant等人于2013年创建的，旨在为问答系统（QA engines）特别是那些在结构化知识库上运行的系统提供一个基准测试。该数据集的构建旨在更好地组织和便于使用，为每个问题分配了唯一的ID，并提供了与问题相关的Freebase额外注释。此外，该数据集还提供了基于不同主题的分割。作为一个开发版本，该数据集在数据格式和问题集合方面尚无稳定性保证，且遵循CC-BY 4.0许可证进行分发。

当前挑战

WebQuestions QA Benchmarking Dataset所面临的挑战主要在于：1）如何有效地在结构化知识库上进行问答系统的性能评估，确保评估结果的准确性和可靠性；2）数据集构建过程中，如何自动化生成问题的子分割，并确保这些子分割能够反映不同主题的特点。此外，数据集的进一步分割（如devtest、val、trainmodel）为机器学习方法的应用提供了便利，但在使用这些子分割时，需要确保不会对测试集产生间接的过拟合现象。

常用场景

经典使用场景

WebQuestions QA Benchmarking Dataset作为问答系统性能评估的重要数据集，其经典使用场景主要在于对结构化知识库问答引擎的基准测试。该数据集提供了与Freebase知识库相关的问题及答案，使得研究者能够在其上训练并评估问答系统的准确性和效率。

解决学术问题

该数据集解决了如何准确评估问答系统在结构化知识库上的性能问题，为学术研究提供了统一的标准。它不仅有助于研究者优化算法，提高问答系统的准确率，而且对于理解自然语言处理和知识图谱结合的复杂交互也具有重要意义。

实际应用

在实际应用中，WebQuestions QA Benchmarking Dataset可用于开发智能问答助手、在线客服机器人等，提高这些系统对用户查询的理解能力及响应质量。此外，它也常被用于教育和培训，以提升相关领域专业人士的技术水平。

数据集最近研究