five

LipengCS/Table-GPT

收藏
Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/LipengCS/Table-GPT
下载链接
链接失效反馈
官方服务:
资源简介:
Table-GPT数据集是一个用于多样化表格任务的数据集,包含18种不同的表格相关任务,如表格理解、数据清洗、数据转换、表格匹配等。数据集分为训练集和测试集,每个任务都有对应的数据文件。训练集包括14个任务,测试集包括9个任务,其中一些任务用于评估模型在未见任务上的泛化能力。此外,还提供了一个更大的训练集,包含额外的生成数据。每个数据文件以JSONL格式存储,包含任务名称、数据集名称、输入提示、生成输出等信息。

Table-GPT数据集是一个用于多样化表格任务的数据集,包含18种不同的表格相关任务,如表格理解、数据清洗、数据转换、表格匹配等。数据集分为训练集和测试集,每个任务都有对应的数据文件。训练集包括14个任务,测试集包括9个任务,其中一些任务用于评估模型在未见任务上的泛化能力。此外,还提供了一个更大的训练集,包含额外的生成数据。每个数据文件以JSONL格式存储,包含任务名称、数据集名称、输入提示、生成输出等信息。
提供机构:
LipengCS
原始信息汇总

数据集概述

数据集名称

  • Table-GPT (Table-tuned GPT for Diverse Table Tasks)

数据集配置

  • All: 包含训练和测试数据,分别位于train/train_All.jsonltest/test_All.jsonl
  • ColumnAugmentation: 训练数据位于train/train_ColumnAugmentation.jsonl
  • ColumnFinding: 测试数据位于test/test_ColumnFinding.jsonl
  • ColumnTypeAnnotation: 测试数据位于test/test_ColumnTypeAnnotation.jsonl
  • DataImputation: 包含训练和测试数据,分别位于train/train_DataImputation.jsonltest/test_DataImputation.jsonl
  • EntityMatching: 包含训练和测试数据,分别位于train/train_EntityMatching.jsonltest/test_EntityMatching.jsonl
  • ErrorDetection: 包含训练和测试数据,分别位于train/train_ErrorDetection.jsonltest/test_ErrorDetection.jsonl
  • HeaderValueMatching: 训练数据位于train/train_HeaderValueMatching.jsonl
  • ListExtraction: 训练数据位于train/train_ListExtraction.jsonl
  • MissingValueIdentification: 测试数据位于test/test_MissingValueIdentification.jsonl
  • NL2SQL: 训练数据位于train/train_NL2SQL.jsonl
  • Row2RowTransformation: 包含训练和测试数据,分别位于train/train_Row2RowTransformation.jsonltest/test_Row2RowTransformation.jsonl
  • RowAugmentation: 训练数据位于train/train_RowAugmentation.jsonl
  • RowColumnFiltering: 训练数据位于train/train_RowColumnFiltering.jsonl
  • RowColumnSorting: 训练数据位于train/train_RowColumnSorting.jsonl
  • RowColumnSwapping: 训练数据位于train/train_RowColumnSwapping.jsonl
  • SchemaMatching: 包含训练和测试数据,分别位于train/train_SchemaMatching.jsonltest/test_SchemaMatching.jsonl
  • TableQuestion: 测试数据位于test/test_TableQuestion.jsonl
  • TableSummarization: 训练数据位于train/train_TableSummarization.jsonl

数据集结构

  • 训练数据: 每个任务的训练数据存储在train/train_{task_name}.jsonl
  • 测试数据: 每个任务的测试数据存储在test/test_{task_name}.jsonl
  • 大型训练数据: 提供额外的训练数据,存储在train_large/train_large_{task_name}.jsonl

数据集内容

  • 任务名称: 每个.jsonl文件中的每一行代表一个单独的示例,包含任务名称、数据集名称、输入提示、生成输出响应、消息和元数据。

数据集许可证

  • 许可证: MIT

测试集详情

任务 数据集 大小
ColumnFinding Spreadsheets-CF 1682
ColumnTypeAnnotation EfthymiouTest 1188
ColumnTypeAnnotation LimayeTest 348
ColumnTypeAnnotation SherlockTest 1940
ColumnTypeAnnotation T2DTest 734
DataImputation Spreadsheets-DI 2000
EntityMatching Amazon-Google 4586
EntityMatching Beer 182
EntityMatching DBLP-ACM 4946
EntityMatching DBLP-GoogleScholar 11484
EntityMatching Fodors-Zagats 378
EntityMatching Walmart-Amazon 4098
EntityMatching iTunes-Amazon 218
ErrorDetection Spreadsheets-ED-Real 1740
ErrorDetection WebTables-ED-Real 864
MissingValueIdentification Spreadsheets-MVI-ColumnNoSep 2000
MissingValueIdentification Spreadsheets-MVI-ColumnSep 2000
MissingValueIdentification Spreadsheets-MVI-RowNoSep 2000
MissingValueIdentification Spreadsheets-MVI-RowSep 2000
Row2RowTransformation BingQL-Other 102
Row2RowTransformation BingQL-Unit 99
Row2RowTransformation FF-GR-Trifacta 134
Row2RowTransformation Headcase 90
Row2RowTransformation Stackoverflow 145
SchemaMatching DeepM 14
TableQuestion SQATest 360
TableQuestion WikiTest 8688

训练集详情

任务 数据集 大小
ColumnAugmentation Synthetic-CA 558
DataImputation Synthetic-DI 886
EntityMatching 784datasets 2010
ErrorDetection Synthetic-ED 852
HeaderValueMatching Synthetic-HVM 1064
ListExtraction Synthetic-LE 537
NL2SQL WikiSQL 994
Row2RowTransformation Synthetic-R2R 951
RowAugmentation Synthetic-RA 553
RowColumnFiltering Synthetic-RCF 603
RowColumnSorting Synthetic-RCS 576
RowColumnSwapping Synthetic-RCSW 556
SchemaMatching Synthetic-SM 2068
TableSummarization Synthetic-TS 1014

大型训练集详情

任务 数据集 大小
ColumnAugmentation Synthetic-CA 2861
DataImputation Synthetic-DI 4326
EntityMatching 784datasets 10000
ErrorDetection Synthetic-ED 4292
HeaderValueMatching Synthetic-HVM 5562
ListExtraction Synthetic-LE 2821
NL2SQL WikiSQL 5000
Row2RowTransformation Synthetic-R2R 5000
RowAugmentation Synthetic-RA 2828
RowColumnFiltering Synthetic-RCF 2863
RowColumnSorting Synthetic-RCS 2849
RowColumnSwapping Synthetic-RCSW 2831
SchemaMatching Synthetic-SM 10000
TableSummarization Synthetic-TS 5000
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作