表格智能任务数据集

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/SpursGoZmy/Tabular-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

本项目收集并整理开源的表格智能任务数据集，如表格问答、表格-文本生成等，用于微调大型语言模型，增强其对表格数据的理解能力。

This project collects and organizes open-source datasets for intelligent table tasks, such as table question answering and table-to-text generation, to fine-tune large language models and enhance their understanding of tabular data.

创建时间：

2023-05-04

原始信息汇总

Tabular LLM数据集概述

数据集目标

Tabular LLM项目旨在收集和整理开源的表格智能任务数据集，如表格问答、表格-文本生成等，并将这些数据转换为指令微调格式，以增强大型语言模型（LLM）对表格数据的理解能力。

数据集内容

1. 样本格式

新版本样本格式（2024-0422版本）：
- 包含样本ID、输入字符串、输出字符串、表格行、表格标题、表格表示、表格表示类型、原始查询、答案列表、表格类型和任务类型等信息。
老版本样本格式（2023-0508版本）：
- 包含任务指令、输入字符串、输出字符串、表格类型、任务类型和数据集名称等信息。

2. 数据汇总

下载链接：提供不同任务的汇总数据和微调后的模型下载链接。
数据集详情：
- 表格问答：包括多个数据集，如WTQ、AIT-QA、WikiSQL等，涵盖不同语言和任务类型。
- 表格事实验证：包括TABFACT、Infotab等数据集。
- 表格→文本生成：包括RotoWire、WikiBIO等数据集。
- 表格基础结构理解：包括TSR、TCE、TCR、RCE等数据集。

3. 数据处理方法

使用Markdown或HTML格式表示表格，根据表格复杂度选择合适的表示方法。
对于复杂表格，如包含合并单元格的层级表格，采用HTML格式表示。

未来计划

持续收集和整理更多的表格智能任务数据集。
对训练好的模型进行测试分析，总结经验供大家参考。
构建一个在线demo以展示模型效果。

搜集汇总

数据集介绍

构建方式

表格智能任务数据集的构建基于Alpaca-CoT项目，旨在广泛收集开源的表格智能任务数据集，如表格问答、表格-文本生成等。原始任务数据经过整理，转化为指令微调格式的数据，并通过Alpaca-CoT项目对大型语言模型（LLM）进行微调，以增强模型对表格数据的理解能力。数据集的构建过程中，采用了多种表格表示方法，如Markdown、HTML等，以适应不同类型的表格结构，并确保数据格式的统一性。

特点

该数据集的特点在于其多样性和广泛性，涵盖了多种表格智能任务，包括表格问答、表格事实验证、表格-文本生成等。数据集中的样本格式经过精心设计，提供了丰富的信息，如表格的行、列、标题、表示格式等，便于研究者根据需求进行样本构建。此外，数据集还支持多种表格表示方法，如Markdown和HTML，以适应不同复杂度的表格结构，确保模型能够处理各种实际应用中的表格数据。

使用方法

使用该数据集时，研究者可以从Hugging Face平台下载汇总数据或针对特定任务的数据集。数据集以JSON格式提供，包含详细的样本信息，如输入指令、输出结果、表格结构等。研究者可以根据需求选择合适的表格表示方法，并利用这些数据对LLM进行微调，以提升模型在表格智能任务中的表现。此外，数据集还提供了微调后的模型权重，便于直接进行模型推理和效果评估。

背景与挑战

背景概述

表格智能任务数据集是由Tabular LLM项目团队基于Alpaca-CoT项目构建的，旨在收集和整理开源的表格智能任务数据集，如表格问答和表格-文本生成等。该项目始于2023年5月，由一支专注于增强大型语言模型（LLM）对表格数据理解能力的研究团队推动。其核心研究问题是如何通过指令微调的方式，提升LLM在处理复杂表格任务中的表现。该数据集的创建不仅填补了表格智能任务训练数据的空白，还为研究者提供了一个统一的数据格式，以便于模型的微调和评估。通过开源这些数据和训练模型，项目团队希望推动表格智能领域的研究，并为开源社区提供一个复现和增强ChatGPT表格处理能力的基础。

当前挑战

表格智能任务数据集面临的主要挑战包括：首先，表格数据的多样性和复杂性，如不同类型的表格（垂直表格、水平表格、层级表格和复杂表格），以及合并单元格的处理，这些都对数据的标准化和模型的理解能力提出了高要求。其次，现有表格智能任务的训练数据相对较少，且缺乏统一整理，这限制了模型的泛化能力和性能提升。此外，如何有效地将表格数据转化为适合LLM处理的文本序列，以及如何设计指令模板以提高数据多样性和模型推理能力，也是构建该数据集时需要克服的技术难题。最后，模型的输出格式和推理过程的完整性也是评估模型性能的重要因素，特别是在处理复杂数值推理任务时，模型的准确性和推理链的完整性尤为关键。

常用场景

经典使用场景

表格智能任务数据集的经典使用场景主要集中在表格问答、表格事实验证、表格文本生成等任务上。通过这些任务，模型能够理解并处理表格数据，回答用户提出的问题，验证表格内容的真实性，或生成与表格内容相关的文本描述。例如，在表格问答任务中，模型能够根据用户提出的问题，从表格中提取相关信息并生成准确的答案；在表格事实验证任务中，模型能够判断用户提供的陈述是否与表格内容一致；在表格文本生成任务中，模型能够根据表格内容生成一段连贯的文本描述。

解决学术问题

该数据集解决了表格智能领域中多个关键的学术研究问题，包括如何有效地表示和处理复杂表格结构、如何提升模型对表格数据的推理能力，以及如何生成与表格内容相关的自然语言描述。通过提供多样化的表格数据和任务类型，该数据集为研究者提供了一个统一的基准，帮助他们开发和评估新的表格智能模型。这不仅推动了表格智能技术的发展，还为大型语言模型在处理半结构化数据方面提供了新的研究方向。

衍生相关工作

基于该数据集，研究者们开发了多种表格智能模型，并在多个相关任务上取得了显著进展。例如，TAPAS模型通过引入表格结构信息，显著提升了表格问答任务的性能；TAPEX模型则通过序列到序列的方式，直接生成与表格内容相关的自然语言描述。此外，该数据集还推动了表格基础结构理解任务的研究，如表格尺寸识别、单元格提取等，这些任务为模型理解表格结构提供了基础支持。未来，随着更多数据的加入和模型的优化，表格智能技术将在更多领域得到广泛应用。

以上内容由遇见数据集搜集并总结生成