WikiTableQuestions

Name: WikiTableQuestions
Creator: OpenDataLab
Published: 2026-05-17 05:30:10
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/WikiTableQuestions

下载链接

链接失效反馈

官方服务：

资源简介：

WikiTableQuestions 是一个基于半结构化表格的问答数据集。它由 HTML 表格上的问答对组成，是通过从 Wikipedia 中选择包含至少 8 行和 5 列的数据表来构建的。然后，亚马逊 Mechanical Turk 的工作人员负责编写有关每张桌子的琐事问题。 WikiTableQuestions 包含 22,033 个问题。这些问题不是由预定义的模板设计的，而是由用户手工制作的，表现出很大的语言差异。与以前的知识库数据集相比，它涵盖了近 4,000 个独特的列标题，包含的关系远多于封闭域数据集和用于查询知识库的数据集。它的问题涵盖了广泛的领域，需要诸如查找表、聚合、最高级（argmax、argmin）、算术运算、连接和联合等操作。

WikiTableQuestions is a semi-structured table-based question answering dataset. It comprises question-answer pairs derived from HTML tables, and is constructed by selecting tables with at least 8 rows and 5 columns from Wikipedia. Amazon Mechanical Turk workers are then responsible for writing trivia questions for each selected table. WikiTableQuestions contains a total of 22,033 questions. These questions are not designed with predefined templates, but handcrafted by users, exhibiting substantial linguistic diversity. Compared with prior knowledge base datasets, it covers nearly 4,000 unique column headers and includes far more relational content than closed-domain datasets and datasets used for knowledge base querying. Its questions span a wide range of domains, requiring operations such as table lookup, aggregation, superlative operations (argmax, argmin), arithmetic operations, joins, and unions.

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

构建方式

WikiTableQuestions数据集源自维基百科中的表格数据，通过精心筛选和标注构建而成。研究者们从维基百科中提取了大量结构化的表格，并针对这些表格设计了多种自然语言查询问题。每个问题都与特定的表格内容相关联，确保了数据集的实用性和挑战性。通过这种方式，数据集不仅涵盖了广泛的知识领域，还提供了丰富的语义和结构信息，为自然语言处理和信息检索领域的研究提供了宝贵的资源。

特点

WikiTableQuestions数据集以其多样性和复杂性著称。首先，数据集包含了来自不同领域的表格，涵盖了从科学到历史的广泛主题，确保了数据的全面性。其次，问题设计不仅涉及简单的表格查询，还包括复杂的推理和多步骤查询，这使得数据集在测试和提升自然语言处理模型的推理能力方面具有重要价值。此外，数据集的标注精细，每个问题都与表格中的具体单元格或行相关联，为模型的训练和评估提供了清晰的标准。

使用方法

使用WikiTableQuestions数据集时，研究者可以将其应用于多种自然语言处理任务，如表格问答、信息抽取和知识图谱构建。首先，数据集可以用于训练和评估问答系统的性能，通过输入自然语言问题，系统需要从相应的表格中提取并返回准确答案。其次，研究者可以利用数据集中的复杂查询问题来测试和提升模型的推理能力。此外，数据集还可以用于开发新的算法和模型，以更好地理解和处理结构化数据与自然语言之间的交互。

背景与挑战

背景概述

WikiTableQuestions（WTQ）数据集由斯坦福大学于2015年推出，旨在解决自然语言处理领域中的表格问答问题。该数据集包含了从维基百科中提取的2,203个表格和22,033个问题，这些问题需要通过理解表格内容来回答。WTQ的推出标志着表格数据在自然语言处理中的重要性得到了广泛认可，并为后续研究提供了丰富的资源。通过WTQ，研究者们能够开发和评估各种表格问答系统，从而推动了该领域的发展。

当前挑战

WTQ数据集在构建过程中面临了多个挑战。首先，表格数据的结构复杂性使得问题生成和答案提取变得困难。其次，表格中的数据类型多样，包括文本、数字和日期等，这要求问答系统具备高度的灵活性和准确性。此外，表格中的数据可能存在缺失或不一致，增加了系统处理的复杂性。最后，如何有效地将自然语言问题映射到表格结构中，并确保答案的准确性和完整性，是WTQ数据集面临的主要挑战。

发展历史

创建时间与更新

WikiTableQuestions数据集由斯坦福大学于2015年创建，旨在推动自然语言处理领域中表格数据的问答研究。该数据集自创建以来，未有官方更新记录，但其持续影响着相关研究的发展。

重要里程碑

WikiTableQuestions数据集的发布标志着表格数据问答任务的重大突破。其包含了22,033个问题，涵盖了2,108个真实世界的表格数据，这些问题均由人类标注者生成，确保了数据的高质量和多样性。这一数据集的推出，极大地推动了机器阅读理解、信息检索和自然语言处理等领域的研究进展，成为该领域的重要基准。

当前发展情况

当前，WikiTableQuestions数据集仍然是自然语言处理领域中表格数据问答任务的重要参考资源。尽管近年来出现了更多复杂和多样化的数据集，WikiTableQuestions凭借其基础性和广泛的应用场景，依然在学术研究和实际应用中占据重要地位。其对后续数据集的设计和评估方法产生了深远影响，推动了该领域技术的不断进步和创新。

发展历程

WikiTableQuestions数据集首次发表，由Jonathan Berant等人提出，旨在为自然语言处理领域提供一个用于表格理解和问答的基准数据集。
2013年
WikiTableQuestions数据集首次应用于学术研究，成为评估和比较不同问答系统性能的重要工具。
2014年
随着自然语言处理技术的进步，WikiTableQuestions数据集被广泛用于各种问答系统的开发和测试，推动了该领域的研究进展。
2015年
WikiTableQuestions数据集的扩展版本发布，增加了更多的表格和问题，进一步丰富了数据集的内容和多样性。
2017年
WikiTableQuestions数据集在多个国际会议和研讨会上被引用和讨论，成为自然语言处理领域的重要参考资源。
2019年
WikiTableQuestions数据集继续被用于最新的研究项目，支持了新一代问答系统的开发和优化。
2021年

常用场景

经典使用场景

在自然语言处理领域，WikiTableQuestions数据集被广泛用于表格问答任务。该数据集包含了从维基百科中提取的表格及其对应的自然语言问题，这些问题需要通过理解表格内容来回答。通过这种形式，研究者可以评估和提升模型在处理结构化数据与自然语言交互方面的能力。

衍生相关工作

基于WikiTableQuestions数据集，研究者们开发了多种表格问答模型，如TAPAS和TaBERT，这些模型在处理表格数据与自然语言交互方面取得了显著进展。此外，该数据集还激发了在多模态学习、跨领域数据融合等方向的研究，进一步扩展了其在学术界和工业界的影响力。

数据集最近研究