five

vaishali/spider-tableQA

收藏
Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vaishali/spider-tableQA
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: query dtype: string - name: question dtype: string - name: table_names sequence: string - name: tables sequence: string - name: answer dtype: string - name: source dtype: string - name: target dtype: string splits: - name: train num_bytes: 2203191673 num_examples: 6715 - name: validation num_bytes: 434370435 num_examples: 985 download_size: 535322409 dataset_size: 2637562108 task_categories: - table-question-answering --- # Dataset Card for "spider-tableQA" # Usage ```python import pandas as pd from datasets import load_dataset spider_tableQA = load_dataset("vaishali/spider-tableQA") for sample in spider_tableQA['train']: question = sample['question'] sql_query = sample['query'] input_table_names = sample["table_names"] input_tables = [pd.read_json(table, orient='split') for table in sample['tables']] answer = pd.read_json(sample['answer'], orient='split') # flattened input/output input_to_model = sample["source"] target = sample["target"] ``` # BibTeX entry and citation info ``` @inproceedings{pal-etal-2023-multitabqa, title = "{M}ulti{T}ab{QA}: Generating Tabular Answers for Multi-Table Question Answering", author = "Pal, Vaishali and Yates, Andrew and Kanoulas, Evangelos and de Rijke, Maarten", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.348", doi = "10.18653/v1/2023.acl-long.348", pages = "6322--6334", abstract = "Recent advances in tabular question answering (QA) with large language models are constrained in their coverage and only answer questions over a single table. However, real-world queries are complex in nature, often over multiple tables in a relational database or web page. Single table questions do not involve common table operations such as set operations, Cartesian products (joins), or nested queries. Furthermore, multi-table operations often result in a tabular output, which necessitates table generation capabilities of tabular QA models. To fill this gap, we propose a new task of answering questions over multiple tables. Our model, MultiTabQA, not only answers questions over multiple tables, but also generalizes to generate tabular answers. To enable effective training, we build a pre-training dataset comprising of 132,645 SQL queries and tabular answers. Further, we evaluate the generated tables by introducing table-specific metrics of varying strictness assessing various levels of granularity of the table structure. MultiTabQA outperforms state-of-the-art single table QA models adapted to a multi-table QA setting by finetuning on three datasets: Spider, Atis and GeoQuery.", } ``` [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- configs: - config_name: default data_files: - split: train(训练集) path: data/train-* - split: validation(验证集) path: data/validation-* dataset_info: features: - name: query(SQL查询语句) dtype: string - name: question(问题) dtype: string - name: table_names(表名序列) sequence: string - name: tables(表数据序列) sequence: string - name: answer(答案) dtype: string - name: source(模型输入源) dtype: string - name: target(模型目标输出) dtype: string splits: - name: train(训练集) num_bytes: 2203191673 num_examples: 6715 - name: validation(验证集) num_bytes: 434370435 num_examples: 985 download_size: 535322409 dataset_size: 2637562108 task_categories: - table-question-answering(表格问答) --- # spider-tableQA 数据集卡片 # 使用方法 python import pandas as pd from datasets import load_dataset spider_tableQA = load_dataset("vaishali/spider-tableQA") for sample in spider_tableQA['train']: question = sample['question'] sql_query = sample['query'] input_table_names = sample["table_names"] input_tables = [pd.read_json(table, orient='split') for table in sample['tables']] answer = pd.read_json(sample['answer'], orient='split') # 扁平化模型输入与输出 input_to_model = sample["source"] target = sample["target"] # BibTeX 引用信息 @inproceedings{pal-etal-2023-multitabqa, title = "{M}ulti{T}ab{QA}: Generating Tabular Answers for Multi-Table Question Answering", author = "Pal, Vaishali and Yates, Andrew and Kanoulas, Evangelos and de Rijke, Maarten", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.348", doi = "10.18653/v1/2023.acl-long.348", pages = "6322--6334", abstract = "近年来,基于大语言模型(Large Language Model,LLM)的表格问答(Tabular QA)研究进展受限于覆盖范围,仅能处理单表场景下的问答任务。然而现实世界中的查询往往较为复杂,通常涉及关系型数据库或网页中的多张表。单表问答无需处理集合运算、笛卡尔积(连接)、嵌套查询等常见表操作。此外,多表查询往往会生成表格形式的输出结果,这要求表格问答模型具备表格生成能力。为填补这一研究空白,我们提出了一项面向多表场景的问答新任务。我们提出的MultiTabQA模型不仅能够处理多表问答任务,还可生成结构化的表格答案。为支撑高效训练,我们构建了一个包含132645条SQL查询与表格答案的预训练数据集。进一步地,我们引入了不同严格程度的表格专属评估指标,从多个粒度层面评估生成表格的结构完整性。在Spider、Atis与GeoQuery三个数据集上进行微调后,MultiTabQA的性能优于适配至多表问答场景的当前最优单表QA模型。" } [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
vaishali
原始信息汇总

数据集概述

数据集配置

  • 默认配置
    • 训练集:路径为 data/train-*
    • 验证集:路径为 data/validation-*

数据集信息

  • 特征

    • query:字符串类型
    • question:字符串类型
    • table_names:字符串序列
    • tables:字符串序列
    • answer:字符串类型
    • source:字符串类型
    • target:字符串类型
  • 分割

    • 训练集
      • 字节数:2203191673
      • 样本数:6715
    • 验证集
      • 字节数:434370435
      • 样本数:985
  • 下载大小:535322409 字节

  • 数据集大小:2637562108 字节

任务类别

  • table-question-answering
搜集汇总
数据集介绍
main_image_url
构建方式
vaishali/spider-tableQA数据集的构建,旨在推进多表问答领域的研究。该数据集通过收集并整理包含SQL查询和表格答案的132,645条记录,形成了适用于模型训练的庞大数据集。数据集分为训练集和验证集,每个样本包含问题、查询、表名、表格数据、答案、数据来源和目标等字段,为模型提供了丰富的信息以学习如何处理多表之间的复杂交互和表格生成任务。
特点
该数据集的主要特点是涵盖了多表间的复杂查询操作,包括集合并、笛卡尔积(连接)以及嵌套查询等。其结构化的数据格式不仅包含查询和答案,还包含表的结构信息,这为研究者在多表问答和表格生成方面的模型训练提供了坚实的基础。此外,数据集的构建考虑了不同严格程度的表格结构评估指标,进一步丰富了模型的评估维度。
使用方法
使用vaishali/spider-tableQA数据集,研究者可以通过HuggingFace的datasets库方便地加载和预处理数据。加载后的数据集可以直接用于模型训练,其中每个样本包括了问题、SQL查询、表名、表格数据、答案等要素。用户可以通过Python代码片段,如提供的示例,轻松地访问和处理数据集中的各个字段,进而进行模型的训练和评估。
背景与挑战
背景概述
在自然语言处理领域,表格问答(TableQA)任务是一项挑战性的研究课题,尤其是当问题涉及跨多个表格的复杂数据查询时。vaishali/spider-tableQA数据集在此背景下应运而生,由Pal等人于2023年提出,旨在推进多表格问答的研究。该数据集的构建依托于Spider数据库,它包含了132,645个SQL查询及其对应的表格答案,为研究者在多表格环境下的问题解答提供了丰富的实验资源。vaishali/spider-tableQA数据集不仅在学术界引起了广泛关注,而且在工业界也具有潜在的应用价值,对提升数据库查询效率和智能问答系统的准确度具有重要影响。
当前挑战
vaishali/spider-tableQA数据集面临的挑战主要体现在两个方面:一是领域问题解决的挑战,即如何设计模型以处理涉及多表格的复杂查询任务,这要求模型能够理解并执行诸如集合运算、笛卡尔积(连接)或嵌套查询等数据库操作;二是构建过程中的挑战,包括如何确保数据集的覆盖范围广泛,以及如何有效评估模型生成的表格答案的准确性。此外,数据集在构建时还需要考虑如何平衡数据样本的多样性,以及如何设计合理的评估指标来全面衡量模型在不同粒度下的表格结构生成能力。
常用场景
经典使用场景
vaishali/spider-tableQA数据集适用于表格问答领域,其经典使用场景在于对多表进行查询,生成表格式的答案。该数据集通过提供包含SQL查询、问题、表格名称、表格内容以及答案的样本,使得研究者能够构建和训练模型,从而实现对复杂查询的准确回答。
解决学术问题
该数据集解决了多表联合查询的学术研究问题,即在多个表格之间进行数据关联和操作,生成表格化的答案。这对于传统的单表问答模型是一个扩展,能够满足更加复杂的信息检索需求,对提升自然语言处理技术在表格数据处理方面的能力具有重要的意义和影响。
衍生相关工作
基于vaishali/spider-tableQA数据集,已经衍生出了MultiTabQA模型,该模型不仅能在多表间进行问答,还能生成表格答案。相关工作进一步推动了多表问答技术的发展,为表格数据的智能处理提供了新的研究方向和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作