TableInstruct Dataset

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/OSU-NLP-Group/TableLlama

下载链接

链接失效反馈

官方服务：

资源简介：

TableInstruct包括一个全面的基于表格的指令调优数据集，覆盖了各种真实世界的表格和现实任务。我们总共包括了14个数据集，涉及11个任务。

TableInstruct comprises a comprehensive table-based instruction tuning dataset, encompassing a variety of real-world tables and practical tasks. In total, we have included 14 datasets, covering 11 distinct tasks.

创建时间：

2023-11-16

原始信息汇总

数据集概述

数据集名称与目的

名称: TableLlama
目的: 开发开放源代码的通用模型，用于处理表格数据。

数据集内容

TableInstruct: 包含多种真实世界表格和任务的指令调整数据集。
TableLlama-7B模型: 基于TableInstruct数据集训练的模型，使用LongLoRA技术进行微调。

数据集特点

数据量: 包含2.6百万表格任务数据。
任务多样性: 涵盖14个数据集，共11种任务。
评估: 在8个领域内数据集和6个领域外数据集上进行评估。

数据集可用性

发布内容: 包括训练数据集、TableLlama-7B模型、微调和推理代码、评估数据集。
存储位置: 所有数据和模型均可在Huggingface上获取。

数据集更新

2024/3/21: 更新了4个领域外评估数据集的提示，并添加了GPT-3.5和GPT-4的结果。

模型概述

模型名称

名称: TableLlama-7B

模型训练

基础模型: 使用LongLoRA技术，基于Llama-2 (7B)模型进行微调。
训练时间: 9天，使用48个80*A100集群。

模型评估

评估数据集: 包括8个领域内和6个领域外数据集。

模型应用

微调与推理: 提供详细的微调和推理代码，支持大规模数据处理。

引用信息

论文: TableLlama: Towards Open Large Generalist Models for Tables
作者: Tianshu Zhang, Xiang Yue, Yifei Li, Huan Sun
年份: 2023
存档: arXiv:2311.09206 [cs.CL]

搜集汇总

数据集介绍

构建方式

TableInstruct Dataset的构建方式体现了对真实世界表格数据的深度挖掘与任务设计的精细考量。该数据集汇集了14个数据源，涵盖11种不同的任务类型，旨在为表格处理模型提供多样化的训练场景。通过精心设计的任务指令，数据集不仅包含了丰富的表格数据，还提供了详细的任务描述，确保模型能够在复杂的表格环境中进行有效的学习和推理。

特点

TableInstruct Dataset的显著特点在于其广泛的任务覆盖和高质量的数据标注。该数据集不仅包含了多种类型的表格数据，还针对每种数据设计了具体的任务指令，如列类型标注、行填充和层次化表格问答等。此外，数据集的规模庞大，包含260万条任务数据，能够支持模型在高达8K上下文长度的环境中进行训练，为表格处理模型的开发提供了坚实的基础。

使用方法

TableInstruct Dataset的使用方法灵活多样，适用于多种表格处理任务的模型训练与评估。用户可以通过Hugging Face平台直接访问数据集，并利用提供的代码进行模型微调和推理。数据集的结构化设计使得用户能够轻松地将表格数据与任务指令结合，进行模型的训练和测试。此外，数据集还提供了详细的评估脚本，帮助用户在不同任务上对模型性能进行全面评估。

背景与挑战

背景概述

TableInstruct Dataset由俄亥俄州立大学自然语言处理小组（OSU-NLP Group）开发，旨在推动表格数据处理领域的研究。该数据集于2023年发布，包含了260万条表格任务数据，涵盖了11种不同的任务类型，旨在为表格处理模型提供丰富的训练和评估资源。TableInstruct不仅为TableLlama模型提供了训练数据，还为表格处理领域的开放式大型通用模型研究奠定了基础。通过该数据集，研究人员能够探索如何在复杂表格结构中进行高效的信息提取和任务处理，从而推动表格数据在自然语言处理中的应用。

当前挑战

TableInstruct Dataset在构建过程中面临了多重挑战。首先，表格数据的多样性和复杂性使得数据标注和任务设计变得极为复杂，尤其是在处理大规模候选集时，任务的难度显著增加。其次，表格数据的结构化特性要求模型具备强大的上下文理解能力，尤其是在处理8K上下文长度时，模型的内存和计算资源需求极高。此外，表格任务的多样性也带来了模型泛化能力的挑战，如何在不同任务间实现高效的迁移学习是一个重要的研究方向。最后，表格数据的实际应用场景广泛，如何确保模型在不同领域和任务中的表现一致性也是一个亟待解决的问题。

常用场景

经典使用场景

TableInstruct Dataset 的经典使用场景主要集中在表格数据的语义理解和任务处理上。该数据集通过提供多样化的表格任务指令，如列类型标注、行填充和层次化表格问答，为模型训练提供了丰富的数据支持。这些任务涵盖了从简单的表格解析到复杂的语义推理，使得模型能够在处理表格数据时具备更强的泛化能力。

实际应用

在实际应用中，TableInstruct Dataset 可用于多种场景，如企业数据管理、知识图谱构建和智能问答系统。例如，在企业数据管理中，该数据集可以帮助自动化处理和分析大量的表格数据，提高数据处理的效率和准确性。在知识图谱构建中，通过表格数据的语义解析，可以更有效地提取和整合知识。

衍生相关工作

TableInstruct Dataset 的发布催生了一系列相关研究工作，特别是在表格数据处理和自然语言处理领域。例如，基于该数据集的 TableLlama 模型展示了在表格任务上的强大性能，推动了表格数据处理模型的进一步发展。此外，该数据集还激发了更多关于表格数据语义理解和任务自动化的研究，为相关领域的技术进步提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集