Open-WikiTable
收藏arXiv2023-05-12 更新2024-06-21 收录
下载链接:
https://github.com/sean0042/Open_WikiTable
下载链接
链接失效反馈官方服务:
资源简介:
Open-WikiTable是由韩国科学技术院创建的第一个开放域问题回答数据集,专注于复杂推理在表格数据上的应用。该数据集基于WikiSQL和WikiTableQuestions,包含67,023个问题和24,680个表格,旨在通过聚合、比较和排序等操作进行高级推理。数据集通过去上下文化和改写技术,确保问题在开放域设置中具有足够的上下文,并减少与表格内容的高词重叠。每个问题都标记有文本答案和SQL查询,支持读者和解析器方法的训练与评估,适用于开发和评估开放域表格问题回答系统。
Open-WikiTable is the first open-domain question answering dataset created by the Korea Advanced Institute of Science and Technology, focusing on complex reasoning over tabular data. Built upon WikiSQL and WikiTableQuestions, this dataset contains 67,023 questions and 24,680 tables, aiming to enable advanced reasoning via operations including aggregation, comparison and sorting. Decontextualization and paraphrasing techniques are employed during dataset construction to ensure that questions have sufficient context in open-domain settings and reduce high lexical overlap with table contents. Each question is annotated with a textual answer and an SQL query, which supports the training and evaluation of reader and parser models, and is suitable for developing and evaluating open-domain tabular question answering systems.
提供机构:
韩国科学技术院
创建时间:
2023-05-12
搜集汇总
数据集介绍

构建方式
在开放领域表格问答研究领域,现有数据集往往局限于单一单元格答案提取,缺乏对表格结构复杂推理的支持。Open-WikiTable的构建基于WikiSQL和WikiTableQuestions两大经典数据集,通过系统性的重构以适应开放域场景。具体而言,研究团队首先对原始数据集中模糊或缺失的表格描述进行了大规模人工重标注,共计处理6,609张表格,确保每张表格具备可区分的元信息。随后,利用GPT-J模型进行问题去语境化处理,将表格的页面标题、章节标题和题注等信息自然融入问题表述,使问题本身包含检索所需上下文。为进一步降低问题与表格内容间的词汇重叠,提升数据集的真实性和挑战性,团队采用反向翻译技术对问题进行了释义处理,有效增加了语言表达的多样性。最后,通过严格的质量审查流程,剔除意图扭曲或信息丢失的样本,确保数据集的准确性与可靠性。
特点
Open-WikiTable作为首个要求对表格进行复杂推理的开放领域问答数据集,其核心特征体现在多个维度。数据集规模宏大,包含67,023个问题-答案对与24,680张表格构成的语料库,为模型训练提供了充足的数据支撑。近40%的问题涉及聚合、比较、排序等超越简单单元格提取的复杂推理操作,充分挖掘了表格的结构化特性。所有问题均经过精心设计,通过去语境化与释义处理,既保证了在开放域环境中基于问题文本检索相关表格的可行性,又模拟了真实场景中问题表述与表格内容词汇差异化的普遍现象。尤为重要的是,每个问题均同时标注了文本答案与对应的SQL查询语句,这一双重标注机制为并行应用基于阅读器的生成方法与基于解析器的语义解析方法开辟了广阔的研究空间,推动了表格问答技术路线的融合与创新。
使用方法
该数据集旨在推动端到端开放领域表格问答系统的研究,其使用方法遵循检索-问答的典型范式。在检索阶段,需将表格语料库处理为适于检索的片段,例如按行分割为固定长度的文本块,并将表格描述信息与扁平化后的表格内容结合。研究者可评估稀疏检索方法(如BM25)或基于预训练语言模型的稠密检索方法(如双编码器架构)在Top-k准确率上的表现。在问答阶段,根据检索到的相关表格片段,可分别采用阅读器或解析器方法生成最终答案。阅读器方法直接将问题与检索到的表格文本输入生成式模型(如基于T5的融合解码器架构)输出文本答案;解析器方法则生成可执行的SQL查询,通过对表格执行查询获得答案,并以执行结果的精确匹配作为评估指标。数据集按8:1:1比例划分训练、验证和测试集,且确保了集合间表格不重叠,以检验模型对未见表格的泛化能力。
背景与挑战
背景概述
在开放领域问答(ODQA)的研究中,表格作为一种结构化知识源,承载着丰富的数值、时序与文本信息,其高效利用一直是自然语言处理领域的关键课题。Open-WikiTable数据集由KAIST与亚马逊的研究团队于2023年发布,旨在填补开放域表格问答中复杂推理能力的空白。该数据集基于WikiSQL和WikiTableQuestions构建,通过去语境化与释义处理,使其适用于真实场景下的表格检索与问答任务。其核心研究问题聚焦于如何让模型在开放域环境中执行跨单元格的聚合、比较与排序等复杂操作,从而推动表格理解与推理技术的发展,为后续研究提供了兼具文本答案与SQL查询标注的大规模资源。
当前挑战
Open-WikiTable所针对的领域挑战在于开放域表格问答中复杂推理的缺失,即现有数据集多局限于单单元格答案提取,未能充分体现表格的结构化特性。构建过程中的挑战主要包括两方面:一是去语境化处理需确保问题包含足够的上下文信息以精准检索相关表格,这要求对大量模糊或缺失的表格描述进行人工重标注;二是通过回译等技术进行问题释义时,需在降低问题与表格间词汇重叠度的同时,保持原问题语义与添加信息的完整性,以避免模型因简单词汇匹配而获得虚假性能提升。
常用场景
经典使用场景
在开放领域问答研究中,表格作为一种结构化知识源,常被用于支持复杂推理任务。Open-WikiTable数据集通过整合WikiSQL和WikiTableQuestions的资源,构建了一个大规模、多样化的问答对集合,其经典使用场景在于训练和评估模型在开放域环境下对表格进行复杂推理的能力。该数据集要求模型不仅能够从海量表格中检索相关信息,还需执行聚合、比较、排序等操作,从而模拟真实世界中对结构化数据的深度查询需求。
解决学术问题
Open-WikiTable主要解决了开放领域表格问答中缺乏复杂推理需求的数据集问题。传统数据集如NQ-table仅支持单单元格答案提取,无法涵盖多单元格操作,而该数据集通过引入近40%需要高级推理的问题,填补了这一空白。其意义在于推动了模型在语义理解、逻辑推理和跨模态检索方面的研究,为开发更智能的问答系统提供了关键基准,促进了自然语言处理与数据库技术的交叉融合。
衍生相关工作
基于Open-WikiTable,研究者已衍生出多项经典工作,主要集中在检索与生成模型的优化上。例如,采用双编码器架构(如BERT与TAPAS)改进表格检索性能,或利用融合解码器(Fusion-in-Decoder)结合T5模型提升问答准确率。这些工作不仅验证了数据集的实用性,还推动了开放域问答中检索器与解析器协同方法的发展,为后续研究如多模态表格理解和跨领域迁移学习奠定了基础。
以上内容由遇见数据集搜集并总结生成



