WebQuestions QA Benchmarking Dataset|问答系统数据集|基准测试数据集

github2024-04-23 更新2024-05-31 收录

问答系统

基准测试

下载链接：

https://github.com/brmson/dataset-factoid-webquestions

下载链接

链接失效反馈

资源简介：

WebQuestions是一个流行的数据集，用于基准测试QA引擎，特别是那些在结构化知识库上工作的引擎。该数据集通过为每个问题分配唯一ID并提供额外的注释来使其更加组织化和易于使用。此外，还提供了几个基于主题的分割。

WebQuestions is a popular dataset utilized for benchmarking QA engines, particularly those operating on structured knowledge bases. The dataset is organized and made more user-friendly by assigning a unique ID to each question and providing additional annotations. Furthermore, it offers several topic-based segments.

创建时间：

2015-07-04

原始信息汇总

数据集概述

数据集名称

WebQuestions QA Benchmarking Dataset

数据集目的

用于基准测试QA引擎，特别是那些针对结构化知识库工作的引擎。

数据集版本

这是一个开发版本，使用时需引用Git仓库和最后提交的日期+shortid。

数据集许可证

CC-BY 4.0

数据集结构

main/: 包含数据集的分发分割。
d-dump/: 包含来自YodaQA的问题转储。
d-freebase/: 包含问题到单个Freebase键的映射。
d-freebase-mids/: 包含每个问题中每个概念的Freebase mids。
d-freebase-rp/: 包含自定义计算的Freebase关系路径。
d-freebase-brp/: 包含自定义计算的分支Freebase关系路径。
d-entities/: 包含在问题文本中检测到的实体出现。
t-movies/: 包含与电影主题相关的问题子分割。

数据集分割

train (3778 q)
test (2032 q)
devtest (189 q)
val (755 q)
trainmodel (2834 q)

数据模型

问题标识符格式："wqr%06d" (train) 或 "wqs%06d" (test)
主JSON文件包含每个问题的单个对象，具有"qId"、"qText"和"answers"属性。

数据集生成脚本

scripts/dump-refresh.sh: 用于重新生成某些子分割。
scripts/mktrain.py: 用于生成完整的train分割的.json文件。
scripts/fulldata.py: 用于构建每个分割的完整数据文件。
scripts/json2tsv.pl: 用于构建YodaQA兼容的TSV格式数据集。

AI搜集汇总

数据集介绍

构建方式

WebQuestions QA Benchmarking Dataset的构建基于原始的WebQuestions数据集，通过为其分配唯一ID并添加额外的注释，如问题与Freebase的关联，以及基于YodaQA系统的实体链接结果生成的Freebase mids。此外，数据集还提供了多个主题相关的子分割，如电影主题的子分割。这些子分割部分是通过YodaQA系统自动生成的，用户可以通过运行特定的脚本重新生成这些子分割。

使用方法

使用WebQuestions QA Benchmarking Dataset时，用户可以选择使用完整的训练集或其子分割进行模型训练和验证。数据集提供了多个脚本，如mktrain.py用于生成完整的训练集JSON文件，fulldata.py用于构建包含完整数据的单个文件，以及json2tsv.pl用于生成YodaQA兼容的TSV格式数据集。用户应根据研究需求选择合适的分割和格式，并确保在报告中明确使用的数据集部分。

背景与挑战

背景概述

WebQuestions QA Benchmarking Dataset，由Berant等人于2013年创建，是一个广泛应用于问答系统基准测试的数据集。该数据集特别针对基于结构化知识库的问答引擎，旨在评估这些系统在处理复杂查询时的性能。通过为每个问题分配唯一ID并提供额外的注释，如问题相关性和Freebase映射，该数据集不仅提高了使用的便捷性，还为研究者提供了丰富的资源。其发布标志着问答系统领域的一个重要里程碑，为后续研究提供了坚实的基础。

当前挑战

尽管WebQuestions QA Benchmarking Dataset在问答系统领域具有重要地位，但其构建和使用过程中仍面临诸多挑战。首先，数据集的动态性要求用户在使用时需引用最新的Git仓库提交记录，以确保数据格式和内容的稳定性。其次，数据集的复杂结构和多样化的子集划分，如d-dump、d-freebase-*等，增加了数据处理的难度。此外，如何有效利用这些子集进行模型训练和验证，避免过拟合，也是研究者需要解决的关键问题。

常用场景

经典使用场景

在自然语言处理领域，WebQuestions QA Benchmarking Dataset 被广泛用于评估和优化问答系统的性能。该数据集特别适用于基于结构化知识库的问答引擎，通过提供丰富的标注信息和多样的主题分割，使得研究人员能够更精确地测试和改进其模型。例如，研究人员可以利用该数据集进行模型训练、验证和测试，以确保其问答系统在不同主题和场景下的鲁棒性和准确性。

解决学术问题

WebQuestions QA Benchmarking Dataset 解决了问答系统在处理复杂查询时面临的多个学术挑战。首先，它通过提供详细的标注和多样的主题分割，帮助研究人员更好地理解和处理自然语言查询。其次，该数据集的结构化设计使得模型能够在训练和验证过程中避免过拟合，从而提高模型的泛化能力。此外，通过引入额外的Freebase映射和关系路径，该数据集还促进了知识图谱在问答系统中的应用研究。

实际应用

在实际应用中，WebQuestions QA Benchmarking Dataset 为开发智能问答系统提供了宝贵的资源。例如，搜索引擎和虚拟助手可以通过该数据集进行训练和优化，以提高其对用户查询的理解和响应能力。此外，教育领域的智能辅导系统和医疗领域的智能诊断系统也可以利用该数据集来增强其问答功能，从而提供更精准和个性化的服务。

数据集最近研究

最新研究方向

在自然语言处理领域，WebQuestions QA Benchmarking Dataset已成为评估问答系统性能的重要基准。最新研究方向主要集中在利用该数据集优化知识库问答系统，特别是通过引入更复杂的实体链接和关系路径计算技术。研究者们致力于提升系统对复杂问题的理解和回答能力，通过深度学习模型和图神经网络等先进技术，探索如何在多跳推理中更有效地利用Freebase等结构化知识库。此外，数据集的细粒度分割和主题特定子集的创建，为机器学习方法的应用提供了更多可能性，促进了模型在特定领域内的性能提升和泛化能力的验证。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国光伏电站空间分布ChinaPV数据集（2015,2020年）

该数据集是中国光伏电站空间分布ChinaPV数据，数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源，处理方法是基于GEE遥感云计算平台，运用随机森林分类模型对2020年中国光伏电站进行遥感提取，后经过形态学运算，灯光数据滤除，轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息，反映了中国地区光伏电站发展现状及其地域分布规律，以ESRI Shapefile格式存储。

国家地球系统科学数据中心收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

ECMWF Reanalysis v5 (ERA5)

ERA5 是第五代 ECMWF 全球气候大气再分析，涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球，并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。

OpenDataLab 收录

DermNet

DermNet是一个包含皮肤病图像的数据集，涵盖了多种皮肤病类型，如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。