LipengCS/Table-GPT
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/LipengCS/Table-GPT
下载链接
链接失效反馈官方服务:
资源简介:
Table-GPT数据集是一个用于多样化表格任务的数据集,包含18种不同的表格相关任务,如表格理解、数据清洗、数据转换、表格匹配等。数据集分为训练集和测试集,每个任务都有对应的数据文件。训练集包括14个任务,测试集包括9个任务,其中一些任务用于评估模型在未见任务上的泛化能力。此外,还提供了一个更大的训练集,包含额外的生成数据。每个数据文件以JSONL格式存储,包含任务名称、数据集名称、输入提示、生成输出等信息。
Table-GPT数据集是一个用于多样化表格任务的数据集,包含18种不同的表格相关任务,如表格理解、数据清洗、数据转换、表格匹配等。数据集分为训练集和测试集,每个任务都有对应的数据文件。训练集包括14个任务,测试集包括9个任务,其中一些任务用于评估模型在未见任务上的泛化能力。此外,还提供了一个更大的训练集,包含额外的生成数据。每个数据文件以JSONL格式存储,包含任务名称、数据集名称、输入提示、生成输出等信息。
提供机构:
LipengCS
原始信息汇总
数据集概述
数据集名称
- Table-GPT (Table-tuned GPT for Diverse Table Tasks)
数据集配置
- All: 包含训练和测试数据,分别位于
train/train_All.jsonl和test/test_All.jsonl。 - ColumnAugmentation: 训练数据位于
train/train_ColumnAugmentation.jsonl。 - ColumnFinding: 测试数据位于
test/test_ColumnFinding.jsonl。 - ColumnTypeAnnotation: 测试数据位于
test/test_ColumnTypeAnnotation.jsonl。 - DataImputation: 包含训练和测试数据,分别位于
train/train_DataImputation.jsonl和test/test_DataImputation.jsonl。 - EntityMatching: 包含训练和测试数据,分别位于
train/train_EntityMatching.jsonl和test/test_EntityMatching.jsonl。 - ErrorDetection: 包含训练和测试数据,分别位于
train/train_ErrorDetection.jsonl和test/test_ErrorDetection.jsonl。 - HeaderValueMatching: 训练数据位于
train/train_HeaderValueMatching.jsonl。 - ListExtraction: 训练数据位于
train/train_ListExtraction.jsonl。 - MissingValueIdentification: 测试数据位于
test/test_MissingValueIdentification.jsonl。 - NL2SQL: 训练数据位于
train/train_NL2SQL.jsonl。 - Row2RowTransformation: 包含训练和测试数据,分别位于
train/train_Row2RowTransformation.jsonl和test/test_Row2RowTransformation.jsonl。 - RowAugmentation: 训练数据位于
train/train_RowAugmentation.jsonl。 - RowColumnFiltering: 训练数据位于
train/train_RowColumnFiltering.jsonl。 - RowColumnSorting: 训练数据位于
train/train_RowColumnSorting.jsonl。 - RowColumnSwapping: 训练数据位于
train/train_RowColumnSwapping.jsonl。 - SchemaMatching: 包含训练和测试数据,分别位于
train/train_SchemaMatching.jsonl和test/test_SchemaMatching.jsonl。 - TableQuestion: 测试数据位于
test/test_TableQuestion.jsonl。 - TableSummarization: 训练数据位于
train/train_TableSummarization.jsonl。
数据集结构
- 训练数据: 每个任务的训练数据存储在
train/train_{task_name}.jsonl。 - 测试数据: 每个任务的测试数据存储在
test/test_{task_name}.jsonl。 - 大型训练数据: 提供额外的训练数据,存储在
train_large/train_large_{task_name}.jsonl。
数据集内容
- 任务名称: 每个
.jsonl文件中的每一行代表一个单独的示例,包含任务名称、数据集名称、输入提示、生成输出响应、消息和元数据。
数据集许可证
- 许可证: MIT
测试集详情
| 任务 | 数据集 | 大小 |
|---|---|---|
| ColumnFinding | Spreadsheets-CF | 1682 |
| ColumnTypeAnnotation | EfthymiouTest | 1188 |
| ColumnTypeAnnotation | LimayeTest | 348 |
| ColumnTypeAnnotation | SherlockTest | 1940 |
| ColumnTypeAnnotation | T2DTest | 734 |
| DataImputation | Spreadsheets-DI | 2000 |
| EntityMatching | Amazon-Google | 4586 |
| EntityMatching | Beer | 182 |
| EntityMatching | DBLP-ACM | 4946 |
| EntityMatching | DBLP-GoogleScholar | 11484 |
| EntityMatching | Fodors-Zagats | 378 |
| EntityMatching | Walmart-Amazon | 4098 |
| EntityMatching | iTunes-Amazon | 218 |
| ErrorDetection | Spreadsheets-ED-Real | 1740 |
| ErrorDetection | WebTables-ED-Real | 864 |
| MissingValueIdentification | Spreadsheets-MVI-ColumnNoSep | 2000 |
| MissingValueIdentification | Spreadsheets-MVI-ColumnSep | 2000 |
| MissingValueIdentification | Spreadsheets-MVI-RowNoSep | 2000 |
| MissingValueIdentification | Spreadsheets-MVI-RowSep | 2000 |
| Row2RowTransformation | BingQL-Other | 102 |
| Row2RowTransformation | BingQL-Unit | 99 |
| Row2RowTransformation | FF-GR-Trifacta | 134 |
| Row2RowTransformation | Headcase | 90 |
| Row2RowTransformation | Stackoverflow | 145 |
| SchemaMatching | DeepM | 14 |
| TableQuestion | SQATest | 360 |
| TableQuestion | WikiTest | 8688 |
训练集详情
| 任务 | 数据集 | 大小 |
|---|---|---|
| ColumnAugmentation | Synthetic-CA | 558 |
| DataImputation | Synthetic-DI | 886 |
| EntityMatching | 784datasets | 2010 |
| ErrorDetection | Synthetic-ED | 852 |
| HeaderValueMatching | Synthetic-HVM | 1064 |
| ListExtraction | Synthetic-LE | 537 |
| NL2SQL | WikiSQL | 994 |
| Row2RowTransformation | Synthetic-R2R | 951 |
| RowAugmentation | Synthetic-RA | 553 |
| RowColumnFiltering | Synthetic-RCF | 603 |
| RowColumnSorting | Synthetic-RCS | 576 |
| RowColumnSwapping | Synthetic-RCSW | 556 |
| SchemaMatching | Synthetic-SM | 2068 |
| TableSummarization | Synthetic-TS | 1014 |
大型训练集详情
| 任务 | 数据集 | 大小 |
|---|---|---|
| ColumnAugmentation | Synthetic-CA | 2861 |
| DataImputation | Synthetic-DI | 4326 |
| EntityMatching | 784datasets | 10000 |
| ErrorDetection | Synthetic-ED | 4292 |
| HeaderValueMatching | Synthetic-HVM | 5562 |
| ListExtraction | Synthetic-LE | 2821 |
| NL2SQL | WikiSQL | 5000 |
| Row2RowTransformation | Synthetic-R2R | 5000 |
| RowAugmentation | Synthetic-RA | 2828 |
| RowColumnFiltering | Synthetic-RCF | 2863 |
| RowColumnSorting | Synthetic-RCS | 2849 |
| RowColumnSwapping | Synthetic-RCSW | 2831 |
| SchemaMatching | Synthetic-SM | 10000 |
| TableSummarization | Synthetic-TS | 5000 |



