Stanford/wikitablequestions

Name: Stanford/wikitablequestions
Creator: Stanford
Published: 2024-01-18 11:19:00
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Stanford/wikitablequestions

下载链接

链接失效反馈

官方服务：

资源简介：

WikiTableQuestions数据集是一个用于半结构化表格上问答任务的大规模数据集。数据集包含多个配置，每个配置都有训练、验证和测试集。数据集的字段包括id、问题、答案和表格信息。表格信息包含表头、行数据和表格名称。数据集的语言为英语，许可证为CC-BY-4.0。数据集的创建者包括Panupong Pasupat和Percy Liang，并且数据集的相关论文为《Compositional Semantic Parsing on Semi-Structured Tables》。

提供机构：

Stanford

原始信息汇总

数据集卡片 for WikiTableQuestions

数据集描述

数据集概述

WikiTableQuestions 数据集是一个用于半结构化表格问答任务的大规模数据集。

支持的任务和排行榜

问答 (question-answering)
表格问答 (table-question-answering)

语言

英语 (en)

数据集结构

数据实例

默认配置

下载的数据集文件大小: 29.27 MB
生成的数据集大小: 47.90 MB
磁盘总使用量: 77.18 MB

一个 validation 实例的示例如下： json { "id": "nt-0", "question": "what was the last year where this team was a part of the usl a-league?", "answers": ["2004"], "table": { "header": ["Year", "Division", "League", ...], "name": "csv/204-csv/590.csv", "rows": [ ["2001", "2", "USL A-League", ...], ["2002", "2", "USL A-League", ...], ... ] } }

数据字段

所有分割的数据字段相同。

默认配置

id: 字符串特征。
question: 字符串特征。
answers: 字符串列表特征。
table: 包含以下字段的字典特征：
- header: 字符串列表特征。
- rows: 字符串列表的列表特征。
- name: 字符串特征。

数据分割

名称	训练集	验证集	测试集
默认配置	11321	2831	4344

数据集创建

数据集配置

random-split-1

特征:
- id: 字符串
- question: 字符串
- answers: 字符串序列
- table: 结构体
  - header: 字符串序列
  - rows: 字符串序列的序列
  - name: 字符串
分割:
- train: 30364389 字节, 11321 个样本
- test: 11423506 字节, 4344 个样本
- validation: 7145768 字节, 2831 个样本
下载大小: 29267445 字节
数据集大小: 48933663 字节

random-split-2

特征:
- id: 字符串
- question: 字符串
- answers: 字符串序列
- table: 结构体
  - header: 字符串序列
  - rows: 字符串序列的序列
  - name: 字符串
分割:
- train: 30098954 字节, 11314 个样本
- test: 11423506 字节, 4344 个样本
- validation: 7411203 字节, 2838 个样本
下载大小: 29267445 字节
数据集大小: 48933663 字节

random-split-3

特征:
- id: 字符串
- question: 字符串
- answers: 字符串序列
- table: 结构体
  - header: 字符串序列
  - rows: 字符串序列的序列
  - name: 字符串
分割:
- train: 28778697 字节, 11314 个样本
- test: 11423506 字节, 4344 个样本
- validation: 8731460 字节, 2838 个样本
下载大小: 29267445 字节
数据集大小: 48933663 字节

random-split-4

特征:
- id: 字符串
- question: 字符串
- answers: 字符串序列
- table: 结构体
  - header: 字符串序列
  - rows: 字符串序列的序列
  - name: 字符串
分割:
- train: 30166421 字节, 11321 个样本
- test: 11423506 字节, 4344 个样本
- validation: 7343736 字节, 2831 个样本
下载大小: 29267445 字节
数据集大小: 48933663 字节

random-split-5

特征:
- id: 字符串
- question: 字符串
- answers: 字符串序列
- table: 结构体
  - header: 字符串序列
  - rows: 字符串序列的序列
  - name: 字符串
分割:
- train: 30333964 字节, 11316 个样本
- test: 11423506 字节, 4344 个样本
- validation: 7176193 字节, 2836 个样本
下载大小: 29267445 字节
数据集大小: 48933663 字节

搜集汇总

数据集介绍

背景与挑战

背景概述

WikiTableQuestions是一个大规模半结构化表格问答数据集，包含约1.8万条数据实例，覆盖训练、验证和测试集。数据集以英语问题、答案和对应表格数据为核心，表格包含表头和行信息，适用于训练和评估表格问答模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集