Stanford/wikitablequestions
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Stanford/wikitablequestions
下载链接
链接失效反馈官方服务:
资源简介:
WikiTableQuestions数据集是一个用于半结构化表格上问答任务的大规模数据集。数据集包含多个配置,每个配置都有训练、验证和测试集。数据集的字段包括id、问题、答案和表格信息。表格信息包含表头、行数据和表格名称。数据集的语言为英语,许可证为CC-BY-4.0。数据集的创建者包括Panupong Pasupat和Percy Liang,并且数据集的相关论文为《Compositional Semantic Parsing on Semi-Structured Tables》。
提供机构:
Stanford
原始信息汇总
数据集卡片 for WikiTableQuestions
数据集描述
数据集概述
WikiTableQuestions 数据集是一个用于半结构化表格问答任务的大规模数据集。
支持的任务和排行榜
- 问答 (question-answering)
- 表格问答 (table-question-answering)
语言
- 英语 (en)
数据集结构
数据实例
默认配置
- 下载的数据集文件大小: 29.27 MB
- 生成的数据集大小: 47.90 MB
- 磁盘总使用量: 77.18 MB
一个 validation 实例的示例如下: json { "id": "nt-0", "question": "what was the last year where this team was a part of the usl a-league?", "answers": ["2004"], "table": { "header": ["Year", "Division", "League", ...], "name": "csv/204-csv/590.csv", "rows": [ ["2001", "2", "USL A-League", ...], ["2002", "2", "USL A-League", ...], ... ] } }
数据字段
所有分割的数据字段相同。
默认配置
id: 字符串特征。question: 字符串特征。answers: 字符串列表特征。table: 包含以下字段的字典特征:header: 字符串列表特征。rows: 字符串列表的列表特征。name: 字符串特征。
数据分割
| 名称 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| 默认配置 | 11321 | 2831 | 4344 |
数据集创建
数据集配置
random-split-1
- 特征:
id: 字符串question: 字符串answers: 字符串序列table: 结构体header: 字符串序列rows: 字符串序列的序列name: 字符串
- 分割:
train: 30364389 字节, 11321 个样本test: 11423506 字节, 4344 个样本validation: 7145768 字节, 2831 个样本
- 下载大小: 29267445 字节
- 数据集大小: 48933663 字节
random-split-2
- 特征:
id: 字符串question: 字符串answers: 字符串序列table: 结构体header: 字符串序列rows: 字符串序列的序列name: 字符串
- 分割:
train: 30098954 字节, 11314 个样本test: 11423506 字节, 4344 个样本validation: 7411203 字节, 2838 个样本
- 下载大小: 29267445 字节
- 数据集大小: 48933663 字节
random-split-3
- 特征:
id: 字符串question: 字符串answers: 字符串序列table: 结构体header: 字符串序列rows: 字符串序列的序列name: 字符串
- 分割:
train: 28778697 字节, 11314 个样本test: 11423506 字节, 4344 个样本validation: 8731460 字节, 2838 个样本
- 下载大小: 29267445 字节
- 数据集大小: 48933663 字节
random-split-4
- 特征:
id: 字符串question: 字符串answers: 字符串序列table: 结构体header: 字符串序列rows: 字符串序列的序列name: 字符串
- 分割:
train: 30166421 字节, 11321 个样本test: 11423506 字节, 4344 个样本validation: 7343736 字节, 2831 个样本
- 下载大小: 29267445 字节
- 数据集大小: 48933663 字节
random-split-5
- 特征:
id: 字符串question: 字符串answers: 字符串序列table: 结构体header: 字符串序列rows: 字符串序列的序列name: 字符串
- 分割:
train: 30333964 字节, 11316 个样本test: 11423506 字节, 4344 个样本validation: 7176193 字节, 2836 个样本
- 下载大小: 29267445 字节
- 数据集大小: 48933663 字节
搜集汇总
数据集介绍

背景与挑战
背景概述
WikiTableQuestions是一个大规模半结构化表格问答数据集,包含约1.8万条数据实例,覆盖训练、验证和测试集。数据集以英语问题、答案和对应表格数据为核心,表格包含表头和行信息,适用于训练和评估表格问答模型。
以上内容由遇见数据集搜集并总结生成



