TIGER-Lab/SKGInstruct

Name: TIGER-Lab/SKGInstruct
Creator: TIGER-Lab
Published: 2024-04-09 03:30:40
License: 暂无描述

Hugging Face2024-04-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/SKGInstruct

下载链接

链接失效反馈

官方服务：

资源简介：

SKGInstruct是一个指令调优数据集，由19个结构化知识基础数据集构建而成，并与SlimOrca数据集混合使用。该数据集旨在支持结构化知识基础模型的开发，特别是用于文本生成任务。数据集的规模在10万到100万之间，主要语言为英语，涉及代码和结构化知识基础（SKG）的标签。

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

数据集名称: SKGInstruct

语言: 英语 (en)

任务类别: 文本生成 (text-generation)

数据集大小: 100K<n<1M

标签: 代码, SKG

配置:

默认配置 (config_name: default)
- 训练数据文件 (split: train): skginstruct.json
- 测试数据文件 (split: test): skginstruct_test_file_7b.json

许可证:

主要许可证: Attribution-NonCommercial-ShareAlike 4.0 International

引用信息:

@misc{zhuang2024structlm, title={StructLM: Towards Building Generalist Models for Structured Knowledge Grounding}, author={Alex Zhuang and Ge Zhang and Tianyu Zheng and Xinrun Du and Junjie Wang and Weiming Ren and Stephen W. Huang and Jie Fu and Xiang Yue and Wenhu Chen}, year={2024}, eprint={2402.16671}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在结构化知识表征领域，构建能够泛化处理多种结构化数据的通用模型是重要研究方向。SKGInstruct数据集正是为训练这类模型而设计，其构建方式独具匠心：该数据集整合了来自19个结构化知识接地（Structured Knowledge Grounding）数据集的指令数据，涵盖了表格、知识图谱、数据库等多种结构化数据形式。为增强数据多样性与对话能力，研究团队还混合了SlimOrca数据集中的高质量指令样本。最终，所有数据被统一格式化为指令-响应对，形成约数十万条的训练集与测试集，为训练通用结构化知识模型提供了坚实基础。

特点

SKGInstruct数据集的核心特点在于其广泛的结构化覆盖与任务多样性。它汇集了19个不同源数据集，包括TabMWP等知名表格推理数据集，使得模型能够接触从简单表格查询到复杂多步推理的丰富场景。数据集的许可协议兼顾开放与保护，多数子集采用CC-BY-NC-SA 4.0许可，而SlimOrca则使用MIT许可，便于学术研究。此外，数据集配套发布了从7B到34B参数规模的StructLM系列模型，验证了其在结构化知识接地任务上的卓越泛化能力，为后续研究提供了可靠的基准。

使用方法

使用SKGInstruct数据集进行模型训练时，研究者可直接加载HuggingFace上的默认配置，其中包含分割好的训练集（skginstruct.json）和测试集（skginstruct_test_file_7b.json）。该数据集专为文本生成任务设计，适用于监督微调（SFT）范式。建议用户结合官方发布的StructLM模型代码库（GitHub）进行训练与评估，以复现论文中的实验结果。使用时需注意各子数据集的许可条款差异，特别是商用限制。对于需要处理表格、知识图谱等结构化信息的应用场景，该数据集是构建通用型结构化知识模型的理想选择。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的飞速发展，如何使模型具备对结构化知识的深度理解与推理能力，成为学术界与工业界共同关注的前沿课题。在此背景下，由TIGER实验室主导，联合多位研究者于2024年提出的SKGInstruct数据集应运而生。该数据集汇聚了来自19个结构化知识接地（Structured Knowledge Grounding, SKG）任务的高质量指令数据，并融合了SlimOrca数据集，旨在构建能够处理表格、知识图谱等多样化结构化信息的通用模型StructLM。SKGInstruct的发布，不仅为结构化知识推理领域提供了标准化的训练资源，更推动了语言模型从纯文本理解向多模态结构化认知的跨越，对后续研究产生了深远影响。

当前挑战

SKGInstruct数据集面临的核心挑战在于如何弥合结构化数据与自然语言之间的语义鸿沟。具体而言，领域问题层面，现有模型在处理表格、数据库等异构结构化信息时，常因缺乏统一的推理范式而表现不佳，亟需构建具备跨任务泛化能力的通用框架。构建过程中，团队需从19个来源迥异的数据集中提取并规范指令格式，确保数据质量与任务覆盖的平衡，同时避免引入偏见或噪声。此外，如何在不牺牲模型性能的前提下，将SlimOrca等通用指令数据与SKG任务指令有效融合，以增强模型的结构化知识接地能力，亦是技术难点所在。这些挑战共同决定了结构化知识推理研究的未来演进方向。

常用场景

经典使用场景

SKGInstruct数据集的核心设计初衷在于构建面向结构化知识基座的通才模型，其最经典的用途是作为指令微调语料库，用于训练和评估能够理解并操作表格、数据库、知识图谱等结构化数据的语言模型。通过整合来自19个不同结构化知识基座数据集的指令数据，该数据集为模型提供了丰富的跨领域、跨格式的学习样本，使其能够掌握诸如表格问答、文本到SQL生成、语义解析等复杂任务，从而显著提升大语言模型在结构化信息处理上的泛化能力。

衍生相关工作

围绕SKGInstruct数据集，衍生出一系列具有影响力的经典工作。最直接的是StructLM系列模型（包括7B、13B和34B参数版本），其通过在该数据集上微调开源基座模型，在多种结构化知识基座基准测试中取得了领先性能。此外，该数据集的研究范式启发了后续工作探索更高效的结构化知识指令构建策略，例如融合更多样化的数据源与任务模板。相关论文在顶会与期刊中频繁引用SKGInstruct，将其作为对比基线或训练数据，推动了文本到SQL、表格问答等子领域的持续进步。

数据集最近研究