danwakeem/wikitablequestions-wtq

Name: danwakeem/wikitablequestions-wtq
Creator: danwakeem
Published: 2023-02-23 22:56:30
License: 暂无描述

Hugging Face2023-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/danwakeem/wikitablequestions-wtq

下载链接

链接失效反馈

官方服务：

资源简介：

WikiTableQuestions-wtq数据集是一个小规模的半结构化表格问答任务数据集。该数据集包含`aggregation_label`和`answer_coordinates`字段，便于在基于TAPAS的模型上进行训练。数据集支持问答和表格问答任务，语言为英语。数据集的创建者为Panupong Pasupat和Percy Liang，许可证为Creative Commons Attribution Share Alike 4.0 International。

提供机构：

danwakeem

原始信息汇总

WikiTableQuestions-wtq 数据集概述

数据集描述

数据集总结

名称: WikiTableQuestions-wtq
类型: 小型数据集
用途: 半结构化表格问题回答任务
特点: 包含aggregation_label和answer_coordinates字段，便于在基于TAPAS的模型上进行训练。

支持的任务和排行榜

任务: 问题回答, 表格问题回答

语言

语言: 英语 (en)

数据集结构

数据实例

下载数据集大小: 27.91 MB
生成数据集大小: 45.68 MB
总磁盘使用量: 73.60 MB

示例

json { "id": "nt-0", "question": "What is the total average attendance at all USL First Division matches?", "answers": ["36755"], "table": { "header": ["Year", "Division", "League", ...], "rows": [["2001", "2", "USL A-League", ...], ...], "name": "csv/204-csv/590.tsv" }, "aggregation_label": "SUM", "answer_coordinates": [[4, 6], ...] }

数据字段

id: 字符串类型
question: 字符串类型
answers: 字符串列表
answers_coordinates: 整数元组列表
aggregation_label: 字符串类型
table: 字典类型，包含:
- header: 字符串列表
- rows: 字符串列表的列表
- name: 字符串类型

数据分割

待定 (TBA)

数据集创建

数据集管理者

Panupong Pasupat
Percy Liang

许可信息

许可证: Creative Commons Attribution Share Alike 4.0 International

引用信息

bibtex @inproceedings{pasupat-liang-2015-compositional, title = "Compositional Semantic Parsing on Semi-Structured Tables", author = "Pasupat, Panupong and Liang, Percy", booktitle = "Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = jul, year = "2015", address = "Beijing, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P15-1142", doi = "10.3115/v1/P15-1142", pages = "1470--1480", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，表格问答任务旨在从半结构化表格中提取信息以回答自然语言问题。WikiTableQuestions-wtq数据集的构建依托于维基百科中的表格数据，通过众包方式收集问题与答案对。原始表格经过筛选与清洗，确保其结构的一致性与内容的可靠性。标注过程中，标注者针对每个表格生成多样化的问题，并标注对应的答案坐标与聚合标签，从而形成高质量的训练与评估样本。

特点

该数据集以其半结构化表格与复杂问题组合为显著特点，涵盖了丰富的语义解析场景。每个样本包含问题、答案、表格结构及聚合标签，支持对表格内容进行数值计算、比较与汇总等操作。数据集规模适中，约包含数万个实例，适用于模型训练与基准测试。其设计注重真实性与多样性，能够有效评估模型在复杂表格推理任务上的性能。

使用方法

使用WikiTableQuestions-wtq数据集时，研究人员可将其应用于表格问答模型的训练与评估。数据集已预先分割为训练集、验证集与测试集，便于进行模型调优与性能比较。通过加载数据集中的问题、表格及标注信息，可以构建端到端的训练流程。此外，数据集兼容基于TAPAS等预训练模型的微调，支持聚合操作与坐标标注的直接利用，为表格语义解析研究提供了便捷的实验基础。

背景与挑战

背景概述

在自然语言处理领域，表格问答任务旨在使机器能够理解半结构化表格数据并回答相关问题。WikiTableQuestions-wtq数据集由斯坦福大学的研究人员Panupong Pasupat和Percy Liang于2015年创建，其核心研究问题聚焦于组合语义解析，旨在推动模型对表格数据的深层逻辑推理能力。该数据集基于维基百科表格构建，通过众包方式标注问题与答案，为表格问答系统提供了重要的基准测试平台，显著促进了语义解析与知识推理研究的发展。

当前挑战

WikiTableQuestions-wtq数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，表格问答需克服语义组合性、数值计算与复杂聚合操作等难题，要求模型精准理解自然语言问题与表格结构的对应关系；其二，在构建过程中，数据来源于维基百科的半结构化表格，其格式多样性与内容异构性增加了标注一致性难度，同时众包标注可能引入偏差，影响数据质量与模型泛化性能。

常用场景

经典使用场景

在自然语言处理领域，表格问答任务旨在让模型理解半结构化表格数据并回答自然语言问题。WikiTableQuestions-wtq数据集作为该领域的经典基准，常被用于评估模型在复杂表格语义解析上的能力。研究者利用该数据集训练和测试模型，要求系统不仅识别表格中的具体信息，还需执行聚合、比较等推理操作，从而推动表格理解技术的发展。

解决学术问题

该数据集有效解决了表格语义解析中的核心学术挑战，即如何让模型从半结构化表格中抽取并组合信息以回答复杂问题。它促进了模型在组合性推理、上下文依赖解析以及跨单元格关系建模等方面的研究，为自然语言处理与知识表示的交叉领域提供了重要实验平台。其意义在于建立了可重复的评估标准，加速了语义解析方法的创新，并对智能信息检索系统的发展产生了深远影响。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作。例如，TAPAS模型通过预训练和微调机制显著提升了表格问答性能；后续研究如TaBERT和RCI进一步探索了表格与文本的联合表示学习。这些工作不仅优化了模型在WikiTableQuestions上的表现，还推动了更广泛的表格理解任务，如表格到文本生成和跨模态表格推理，形成了持续演进的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集