表格智能任务数据集
收藏github2024-04-22 更新2024-05-31 收录
下载链接:
https://github.com/SpursGoZmy/Tabular-LLM
下载链接
链接失效反馈官方服务:
资源简介:
本项目收集并整理开源的表格智能任务数据集,如表格问答、表格-文本生成等,用于微调大型语言模型,增强其对表格数据的理解能力。
This project collects and organizes open-source datasets for intelligent table tasks, such as table question answering and table-to-text generation, to fine-tune large language models and enhance their understanding of tabular data.
创建时间:
2023-05-04
原始信息汇总
Tabular LLM数据集概述
数据集目标
Tabular LLM项目旨在收集和整理开源的表格智能任务数据集,如表格问答、表格-文本生成等,并将这些数据转换为指令微调格式,以增强大型语言模型(LLM)对表格数据的理解能力。
数据集内容
1. 样本格式
- 新版本样本格式(2024-0422版本):
- 包含样本ID、输入字符串、输出字符串、表格行、表格标题、表格表示、表格表示类型、原始查询、答案列表、表格类型和任务类型等信息。
- 老版本样本格式(2023-0508版本):
- 包含任务指令、输入字符串、输出字符串、表格类型、任务类型和数据集名称等信息。
2. 数据汇总
- 下载链接:提供不同任务的汇总数据和微调后的模型下载链接。
- 数据集详情:
- 表格问答:包括多个数据集,如WTQ、AIT-QA、WikiSQL等,涵盖不同语言和任务类型。
- 表格事实验证:包括TABFACT、Infotab等数据集。
- 表格→文本生成:包括RotoWire、WikiBIO等数据集。
- 表格基础结构理解:包括TSR、TCE、TCR、RCE等数据集。
3. 数据处理方法
- 使用Markdown或HTML格式表示表格,根据表格复杂度选择合适的表示方法。
- 对于复杂表格,如包含合并单元格的层级表格,采用HTML格式表示。
未来计划
- 持续收集和整理更多的表格智能任务数据集。
- 对训练好的模型进行测试分析,总结经验供大家参考。
- 构建一个在线demo以展示模型效果。
搜集汇总
数据集介绍

构建方式
表格智能任务数据集的构建基于Alpaca-CoT项目,旨在广泛收集开源的表格智能任务数据集,如表格问答、表格-文本生成等。原始任务数据经过整理,转化为指令微调格式的数据,并通过Alpaca-CoT项目对大型语言模型(LLM)进行微调,以增强模型对表格数据的理解能力。数据集的构建过程中,采用了多种表格表示方法,如Markdown、HTML等,以适应不同类型的表格结构,并确保数据格式的统一性。
特点
该数据集的特点在于其多样性和广泛性,涵盖了多种表格智能任务,包括表格问答、表格事实验证、表格-文本生成等。数据集中的样本格式经过精心设计,提供了丰富的信息,如表格的行、列、标题、表示格式等,便于研究者根据需求进行样本构建。此外,数据集还支持多种表格表示方法,如Markdown和HTML,以适应不同复杂度的表格结构,确保模型能够处理各种实际应用中的表格数据。
使用方法
使用该数据集时,研究者可以从Hugging Face平台下载汇总数据或针对特定任务的数据集。数据集以JSON格式提供,包含详细的样本信息,如输入指令、输出结果、表格结构等。研究者可以根据需求选择合适的表格表示方法,并利用这些数据对LLM进行微调,以提升模型在表格智能任务中的表现。此外,数据集还提供了微调后的模型权重,便于直接进行模型推理和效果评估。
背景与挑战
背景概述
表格智能任务数据集是由Tabular LLM项目团队基于Alpaca-CoT项目构建的,旨在收集和整理开源的表格智能任务数据集,如表格问答和表格-文本生成等。该项目始于2023年5月,由一支专注于增强大型语言模型(LLM)对表格数据理解能力的研究团队推动。其核心研究问题是如何通过指令微调的方式,提升LLM在处理复杂表格任务中的表现。该数据集的创建不仅填补了表格智能任务训练数据的空白,还为研究者提供了一个统一的数据格式,以便于模型的微调和评估。通过开源这些数据和训练模型,项目团队希望推动表格智能领域的研究,并为开源社区提供一个复现和增强ChatGPT表格处理能力的基础。
当前挑战
表格智能任务数据集面临的主要挑战包括:首先,表格数据的多样性和复杂性,如不同类型的表格(垂直表格、水平表格、层级表格和复杂表格),以及合并单元格的处理,这些都对数据的标准化和模型的理解能力提出了高要求。其次,现有表格智能任务的训练数据相对较少,且缺乏统一整理,这限制了模型的泛化能力和性能提升。此外,如何有效地将表格数据转化为适合LLM处理的文本序列,以及如何设计指令模板以提高数据多样性和模型推理能力,也是构建该数据集时需要克服的技术难题。最后,模型的输出格式和推理过程的完整性也是评估模型性能的重要因素,特别是在处理复杂数值推理任务时,模型的准确性和推理链的完整性尤为关键。
常用场景
经典使用场景
表格智能任务数据集的经典使用场景主要集中在表格问答、表格事实验证、表格文本生成等任务上。通过这些任务,模型能够理解并处理表格数据,回答用户提出的问题,验证表格内容的真实性,或生成与表格内容相关的文本描述。例如,在表格问答任务中,模型能够根据用户提出的问题,从表格中提取相关信息并生成准确的答案;在表格事实验证任务中,模型能够判断用户提供的陈述是否与表格内容一致;在表格文本生成任务中,模型能够根据表格内容生成一段连贯的文本描述。
解决学术问题
该数据集解决了表格智能领域中多个关键的学术研究问题,包括如何有效地表示和处理复杂表格结构、如何提升模型对表格数据的推理能力,以及如何生成与表格内容相关的自然语言描述。通过提供多样化的表格数据和任务类型,该数据集为研究者提供了一个统一的基准,帮助他们开发和评估新的表格智能模型。这不仅推动了表格智能技术的发展,还为大型语言模型在处理半结构化数据方面提供了新的研究方向。
衍生相关工作
基于该数据集,研究者们开发了多种表格智能模型,并在多个相关任务上取得了显著进展。例如,TAPAS模型通过引入表格结构信息,显著提升了表格问答任务的性能;TAPEX模型则通过序列到序列的方式,直接生成与表格内容相关的自然语言描述。此外,该数据集还推动了表格基础结构理解任务的研究,如表格尺寸识别、单元格提取等,这些任务为模型理解表格结构提供了基础支持。未来,随着更多数据的加入和模型的优化,表格智能技术将在更多领域得到广泛应用。
以上内容由遇见数据集搜集并总结生成



