five

osunlp/TableInstruct

收藏
Hugging Face2024-03-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/osunlp/TableInstruct
下载链接
链接失效反馈
官方服务:
资源简介:
TableInstruct Dataset是一个用于表格任务的指令调优数据集,涵盖了各种现实世界中的表格和实际任务。该数据集包含14个数据集和11个任务。
提供机构:
osunlp
原始信息汇总

TableLlama 数据集概述

简介

TableLlama 是一个开源的大型通用模型,专门针对各种基于表格的任务进行优化。该模型在 TableInstruct 数据集上进行训练,这是一个精心策划的用于表格指令调优的数据集。TableLlama 在 260 万个基于表格的任务数据上进行了调优,能够处理高达 8K 的上下文。

数据集

模型在 TableInstruct 数据集上进行训练,该数据集包括一个全面的基于表格的指令调优数据集,涵盖了多种现实世界的表格和实际任务。总共包含 14 个数据集,涉及 11 个任务。

训练过程

模型使用 TableInstruct 数据集进行微调,采用 LongLoRA(7B)作为基础模型,该模型替换了原始 Llama-2(7B)的普通注意力机制,使用 shift short attention。训练在 48 个 A100 集群上进行,耗时 9 天。

评估

模型在 8 个领域内数据集和 8 个任务上进行评估,同时在 6 个领域外数据集和 4 个任务上进行评估。

使用方法

可以通过 Huggingface 的 Transformers 库使用这些模型。

提示格式

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

Instruction:

{instruction}

Input:

{input}

Question:

{question}

Response:

引用

如果使用该项目的模型、数据或代码,请引用原始论文:

@misc{zhang2023tablellama, title={TableLlama: Towards Open Large Generalist Models for Tables}, author={Tianshu Zhang and Xiang Yue and Yifei Li and Huan Sun}, year={2023}, eprint={2311.09206}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作