five

Stanford/wikitablequestions

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Stanford/wikitablequestions
下载链接
链接失效反馈
官方服务:
资源简介:
WikiTableQuestions数据集是一个用于半结构化表格上问答任务的大规模数据集。数据集包含多个配置,每个配置都有训练、验证和测试集。数据集的字段包括id、问题、答案和表格信息。表格信息包含表头、行数据和表格名称。数据集的语言为英语,许可证为CC-BY-4.0。数据集的创建者包括Panupong Pasupat和Percy Liang,并且数据集的相关论文为《Compositional Semantic Parsing on Semi-Structured Tables》。
提供机构:
Stanford
原始信息汇总

数据集卡片 for WikiTableQuestions

数据集描述

数据集概述

WikiTableQuestions 数据集是一个用于半结构化表格问答任务的大规模数据集。

支持的任务和排行榜

  • 问答 (question-answering)
  • 表格问答 (table-question-answering)

语言

  • 英语 (en)

数据集结构

数据实例

默认配置

  • 下载的数据集文件大小: 29.27 MB
  • 生成的数据集大小: 47.90 MB
  • 磁盘总使用量: 77.18 MB

一个 validation 实例的示例如下: json { "id": "nt-0", "question": "what was the last year where this team was a part of the usl a-league?", "answers": ["2004"], "table": { "header": ["Year", "Division", "League", ...], "name": "csv/204-csv/590.csv", "rows": [ ["2001", "2", "USL A-League", ...], ["2002", "2", "USL A-League", ...], ... ] } }

数据字段

所有分割的数据字段相同。

默认配置

  • id: 字符串特征。
  • question: 字符串特征。
  • answers: 字符串列表特征。
  • table: 包含以下字段的字典特征:
    • header: 字符串列表特征。
    • rows: 字符串列表的列表特征。
    • name: 字符串特征。

数据分割

名称 训练集 验证集 测试集
默认配置 11321 2831 4344

数据集创建

数据集配置

random-split-1

  • 特征:
    • id: 字符串
    • question: 字符串
    • answers: 字符串序列
    • table: 结构体
      • header: 字符串序列
      • rows: 字符串序列的序列
      • name: 字符串
  • 分割:
    • train: 30364389 字节, 11321 个样本
    • test: 11423506 字节, 4344 个样本
    • validation: 7145768 字节, 2831 个样本
  • 下载大小: 29267445 字节
  • 数据集大小: 48933663 字节

random-split-2

  • 特征:
    • id: 字符串
    • question: 字符串
    • answers: 字符串序列
    • table: 结构体
      • header: 字符串序列
      • rows: 字符串序列的序列
      • name: 字符串
  • 分割:
    • train: 30098954 字节, 11314 个样本
    • test: 11423506 字节, 4344 个样本
    • validation: 7411203 字节, 2838 个样本
  • 下载大小: 29267445 字节
  • 数据集大小: 48933663 字节

random-split-3

  • 特征:
    • id: 字符串
    • question: 字符串
    • answers: 字符串序列
    • table: 结构体
      • header: 字符串序列
      • rows: 字符串序列的序列
      • name: 字符串
  • 分割:
    • train: 28778697 字节, 11314 个样本
    • test: 11423506 字节, 4344 个样本
    • validation: 8731460 字节, 2838 个样本
  • 下载大小: 29267445 字节
  • 数据集大小: 48933663 字节

random-split-4

  • 特征:
    • id: 字符串
    • question: 字符串
    • answers: 字符串序列
    • table: 结构体
      • header: 字符串序列
      • rows: 字符串序列的序列
      • name: 字符串
  • 分割:
    • train: 30166421 字节, 11321 个样本
    • test: 11423506 字节, 4344 个样本
    • validation: 7343736 字节, 2831 个样本
  • 下载大小: 29267445 字节
  • 数据集大小: 48933663 字节

random-split-5

  • 特征:
    • id: 字符串
    • question: 字符串
    • answers: 字符串序列
    • table: 结构体
      • header: 字符串序列
      • rows: 字符串序列的序列
      • name: 字符串
  • 分割:
    • train: 30333964 字节, 11316 个样本
    • test: 11423506 字节, 4344 个样本
    • validation: 7176193 字节, 2836 个样本
  • 下载大小: 29267445 字节
  • 数据集大小: 48933663 字节
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WikiTableQuestions是一个大规模半结构化表格问答数据集,包含约1.8万条数据实例,覆盖训练、验证和测试集。数据集以英语问题、答案和对应表格数据为核心,表格包含表头和行信息,适用于训练和评估表格问答模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作