factoid-curated

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/brmson/dataset-factoid-curated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于基准测试问答系统的事实型问题研究数据集，例如被YodaQA系统使用。数据集由两个子数据集（irc/和trec/）组成，包含三个文件：curated-full.tsv（完整的问题集）、curated-train.tsv（标准训练分割）和curated-test.tsv（标准测试分割）。此外，还有一个未经过筛选的测试分割trecnew-raw-test.tsv，用于在未使用精选数据的论文中报告系统性能。

This is a fact-based question research dataset designed for benchmarking question-answering systems, such as the one used by the YodaQA system. The dataset comprises two subsets (irc/ and trec/) and includes three files: curated-full.tsv (the complete set of questions), curated-train.tsv (the standard training split), and curated-test.tsv (the standard test split). Additionally, there is an unfiltered test split, trecnew-raw-test.tsv, which is utilized to report system performance in papers that do not employ curated data.

创建时间：

2015-05-19

原始信息汇总

数据集概述

数据集名称

Reference QA Benchmarking Dataset

数据集组成

主要文件：
- curated-full.tsv：包含所有问题，用于完整数据集。
- curated-train.tsv：训练集，用于开发、性能分析和机器学习算法训练。
- curated-test.tsv：测试集，用于系统性能的基准测试。
- trecnew-raw-test.tsv：未经筛选的测试集变体，包含原始问题及其验证正则表达式。
额外数据集：
- large2470：非筛选数据集，包含更多噪声，用于测试QA系统在大型噪声数据上的表现。

数据集特性

问题类型：
- 事实型（Factoid）：单一答案，通常为简单短语，非列表或序列，非布尔型问题。
- 聚焦于Wikipedia：大多数问题可通过直接信息检索回答，部分需要推理。

使用指南

使用curated-test.tsv时，应将其视为“盲测”，不进行单个问题的分析或优化。
报告性能时，应使用相同或相似的知识库，如enwiki-20150112、Freebase RDF、DBpedia 2014、WordNet 3.1。

数据集目标

构建一个简单、聚焦的系统也能处理的问题集。
可能放宽某些要求，但需开始标记问题以保持“简单”问题集。

数据集扩展

large2470数据集添加了TREC 1999-2001数据和用户反馈问题，用于探索系统的泛化能力。
未来可能创建更大的数据集，如包括WebQuestions、TREC 2004+、QALD挑战等。

搜集汇总

数据集介绍

构建方式

factoid-curated数据集的构建方式是通过整合两个子数据集（irc/和trec/），并将其分为三个主要文件：curated-full.tsv包含完整的问题集，curated-train.tsv用于主要开发和训练，curated-test.tsv用于基准测试。此外，trecnew-raw-test.tsv提供了一个未经过筛选的测试集，用于在不使用筛选数据的情况下报告系统性能。数据集的构建过程中，部分问题可能被排除在分割之外，但这些被包含在large2470-train中。

使用方法

使用factoid-curated数据集时，建议将curated-test.tsv仅用于性能报告，避免进行逐题错误分析。开发时应使用curated-train.tsv，并确保报告所使用的数据集版本。为了确保结果的可比性，建议使用相同的知识库，如enwiki-20150112、Freebase RDF dump、DBpedia 2014和WordNet 3.1。此外，数据集的变体large2470可用于测试系统在更大、更噪声数据集上的表现。

背景与挑战

背景概述

factoid-curated数据集是一个用于基准测试问答系统（如YodaQA系统）的参考问题数据集。该数据集由两个子数据集（irc/和trec/）组合而成，旨在评估问答系统在处理事实性问题时的性能。其核心研究问题集中在如何构建一个专注于维基百科知识的事实性问题集，这些问题通常具有单一答案，且不涉及复杂推理。数据集的创建旨在为简单、专注的系统提供测试平台，同时也为更复杂的系统提供挑战。该数据集的构建时间可追溯至2015年，主要研究人员和机构通过结合TREC数据集和用户反馈，逐步完善了数据集的质量和多样性。

当前挑战

factoid-curated数据集面临的挑战主要集中在数据质量和系统性能评估上。首先，数据集的构建过程中需要处理大量噪声数据，如不规范的提问和难以验证的答案模式，这增加了数据清洗和标注的难度。其次，尽管数据集提供了训练和测试分割，但如何在保持数据集一致性的同时，避免系统开发者对测试集进行过度优化，是一个重要的挑战。此外，随着时间的推移，知识库的更新和变化可能导致数据集的适用性下降，如何保持数据集的时效性和相关性也是一个持续的挑战。最后，如何在多源知识库的背景下，确保问答系统的公平性和无偏性，是该数据集在实际应用中需要解决的问题。

常用场景

经典使用场景

factoid-curated数据集主要用于基准测试问答系统，特别是在参考问答系统（如YodaQA）的性能评估中。该数据集通过提供结构化的问答对，帮助研究者和开发者评估其问答系统的准确性和鲁棒性。经典的使用场景包括在训练和测试阶段使用curated-train.tsv和curated-test.tsv文件，分别用于模型开发和性能报告。

解决学术问题

该数据集解决了问答系统在处理事实性问题时的准确性和一致性问题。通过提供一个标准化的测试平台，factoid-curated使得不同系统之间的性能比较成为可能，从而推动了问答系统在信息检索和自然语言处理领域的研究进展。其意义在于为学术界提供了一个统一的基准，促进了新算法和技术的开发与验证。

实际应用

在实际应用中，factoid-curated数据集被广泛用于开发和优化问答系统，这些系统可以应用于搜索引擎、智能助手和在线客服等多个领域。通过使用该数据集进行训练和测试，开发者能够构建出能够准确回答用户查询的系统，从而提升用户体验和服务效率。

数据集最近研究