vaishali/atis-tableQA
收藏Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vaishali/atis-tableQA
下载链接
链接失效反馈官方服务:
资源简介:
数据集atis-tableQA用于表格问答任务,包含训练集、验证集和测试集。每个样本包含查询、问题、答案、表名、表格、源和目标等特征。数据集的大小为1K<n<10K,语言为英语,标签为travel。该数据集支持多表问答任务,并生成表格形式的答案。
数据集atis-tableQA用于表格问答任务,包含训练集、验证集和测试集。每个样本包含查询、问题、答案、表名、表格、源和目标等特征。数据集的大小为1K<n<10K,语言为英语,标签为travel。该数据集支持多表问答任务,并生成表格形式的答案。
提供机构:
vaishali
原始信息汇总
数据集概述
数据集名称
- 名称: atis-tableQA
数据集配置
- 默认配置: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 数据文件:
数据集特征
- 特征:
- query: 字符串类型
- question: 字符串类型
- answer: 字符串类型
- table_names: 字符串序列
- tables: 字符串序列
- source: 字符串类型
- target: 字符串类型
数据集分割
- 分割:
- 训练集:
- 字节数: 6532402
- 样本数: 384
- 验证集:
- 字节数: 826593
- 样本数: 45
- 测试集:
- 字节数: 1057831
- 样本数: 86
- 训练集:
数据集大小
- 下载大小: 711704 字节
- 数据集大小: 8416826 字节
许可
- 许可: apache-2.0
任务类别
- 任务类别:
- table-question-answering
语言
- 语言:
- 英语
大小类别
- 大小类别:
- 1K<n<10K
标签
- 标签:
- travel
搜集汇总
数据集介绍

构建方式
在航空旅行信息查询领域,多表问答任务对模型提出了更高要求。该数据集源自ATIS(Air Travel Information System)领域,通过精心设计的SQL查询构建而成,覆盖了航班、票价、机场等多表关联查询场景。构建过程中,研究者从复杂多表操作中提取了132,645条SQL查询及其对应的表格答案,形成了包含384个训练样本、45个验证样本和86个测试样本的完整数据集。每个样本均包含自然语言问题、SQL查询语句、表格答案以及扁平化的输入输出表示,为多表问答研究提供了结构化基础。
特点
该数据集显著区别于传统单表问答资源,其核心特征在于全面覆盖多表操作场景。数据集不仅包含基本的筛选和聚合操作,更深入涉及集合运算、笛卡尔积连接以及嵌套查询等复杂关系型数据库操作。每个样本的答案以结构化表格形式呈现,要求模型具备表格生成能力。数据集中问题与SQL查询的对应关系经过严格标注,同时提供扁平化的文本表示,便于不同架构的模型进行处理。这种多粒度、多模态的数据组织形式,为评估模型在真实场景下的推理能力提供了可靠基准。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,利用标准接口获取训练、验证和测试划分。典型使用流程包含加载数据集后迭代处理每个样本,提取自然语言问题、SQL查询及对应的表格答案。表格答案采用pandas兼容的JSON格式存储,可通过pd.read_json()方法直接解析为DataFrame进行后续分析。数据集同时提供扁平化的source-target文本对,便于直接用于语言模型的序列到序列训练。该设计使得研究者既能进行传统的语义解析任务,也能探索基于大语言模型的端到端表格生成方法,为多表问答研究提供了灵活的实验平台。
背景与挑战
背景概述
在自然语言处理领域,表格问答技术旨在使机器能够理解并回答基于结构化表格数据的复杂查询。ATIS-TableQA数据集由Vaishali Pal、Andrew Yates等研究人员于2023年构建,作为MultiTabQA研究项目的一部分,其核心研究问题聚焦于多表格环境下的问答任务。该数据集扩展了传统单表格问答的局限,引入了涉及跨表连接、集合操作及嵌套查询的复杂问题,推动了表格推理模型向更贴近现实应用场景的方向发展,对提升数据库交互智能和自动化报告生成等领域具有显著影响力。
当前挑战
ATIS-TableQA数据集所解决的核心领域挑战在于多表格问答的复杂性,这要求模型不仅理解单个表格的结构与内容,还需掌握跨表格的关系推理与操作整合,以生成准确的表格形式答案。在构建过程中,研究人员面临数据稀缺的难题,需精心设计涵盖多样SQL查询类型和表格输出的预训练数据集;同时,评估生成表格的质量引入了严格的多层次度量标准,以确保对表格结构和内容的细粒度评估,这增加了数据集构建与模型验证的复杂度。
常用场景
经典使用场景
在自然语言处理领域,表格问答任务旨在让模型理解结构化表格数据并回答用户查询。ATIS-TableQA数据集作为多表问答的典型代表,其经典使用场景聚焦于航空旅行领域的复杂信息检索。该数据集通过模拟真实世界中的多表查询操作,如连接、集合运算和嵌套查询,为模型提供了从多个相关表格中提取并整合信息的训练环境。研究者通常利用该数据集评估模型在跨表推理和表格生成方面的能力,推动表格理解技术向更贴近实际应用的方向发展。
实际应用
在实际应用层面,ATIS-TableQA数据集直接服务于智能航空客服和旅行信息系统的开发。系统可基于用户提出的自然语言问题,如查询航班转机方案或比较不同航线价格,自动从多张数据库表格中检索并生成清晰的结构化答案。这种能力显著提升了信息服务的效率和用户体验,减少了人工处理复杂查询的负担。同时,该技术可扩展至金融分析、医疗数据查询等领域,为多源数据整合与交互提供了实用化解决方案。
衍生相关工作
围绕ATIS-TableQA数据集,学术界衍生出一系列经典研究工作。其中,MultiTabQA模型作为代表性成果,专门针对多表问答与表格生成任务进行优化,在Spider、ATIS和GeoQuery等基准测试中取得了领先性能。这些工作不仅改进了模型对复杂SQL查询的解析能力,还引入了多粒度表格评估指标,推动了表格生成质量的量化标准发展。后续研究进一步探索了预训练策略、跨领域迁移以及人机协作界面,持续丰富着多模态数据理解的学术生态。
以上内容由遇见数据集搜集并总结生成



