INSTRUCTIE

Name: INSTRUCTIE
Creator: 浙江大学-蚂蚁集团知识图谱联合实验室
Published: 2024-04-19 00:20:19
License: 暂无描述

arXiv2024-04-19 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/zjunlp/InstructIE

下载链接

链接失效反馈

官方服务：

资源简介：

INSTRUCTIE是一个中英双语的信息提取指令数据集，由浙江大学-蚂蚁集团知识图谱联合实验室创建。该数据集覆盖了12个不同领域，包含174,670个中文实例和189,406个英文实例，总计364,076条数据。数据集的创建过程中，采用了KG2Instruction框架，通过自动生成关系三元组，并利用自然语言推理模型过滤不真实的三元组，确保数据质量。INSTRUCTIE数据集主要用于解决大型语言模型在信息提取任务中的性能问题，特别是在零样本学习和小样本学习场景中的应用。

INSTRUCTIE is a Chinese-English bilingual information extraction instruction dataset constructed by the Zhejiang University-Ant Group Joint Knowledge Graph Laboratory. This dataset spans 12 distinct domains, comprising 174,670 Chinese instances and 189,406 English instances, with an overall total of 364,076 data entries. During its development, the KG2Instruction framework was utilized, which automatically generates relational triples and filters out unfaithful triples via natural language inference models to guarantee data quality. The INSTRUCTIE dataset is primarily intended to mitigate the performance limitations of large language models (LLMs) on information extraction tasks, particularly in zero-shot and few-shot learning scenarios.

提供机构：

浙江大学-蚂蚁集团知识图谱联合实验室

创建时间：

2023-05-19

搜集汇总

数据集介绍

构建方式

INSTRUCTIE 数据集的构建过程采用了KG2Instruction框架，该框架通过三个步骤自动生成关系三元组：首先，将知识图谱与现有语料库对齐；其次，使用训练好的信息抽取模型补充缺失的三元组；最后，利用自然语言推理过滤掉不真实的三元组。该框架有效地解决了传统数据集构建过程中存在的成本高、效率低等问题。

特点

INSTRUCTIE 数据集是一个双语的指令式信息抽取数据集，涵盖了12个不同的领域和123种关系类型，包含174,670个中文实例和189,406个英文实例。该数据集具有以下特点：1) 覆盖范围广，涵盖了多个领域和关系类型；2) 数据规模大，包含大量的实例；3) 数据质量高，经过严格的质量控制。

使用方法

INSTRUCTIE 数据集可以用于训练和评估指令式信息抽取模型，例如关系抽取和实体识别等。该数据集可以用于以下场景：1) 零样本学习，评估模型在没有特定信息抽取指令训练的情况下进行信息抽取的能力；2) 上下文学习，评估模型通过学习上下文示例来提取信息的能力；3) 微调，评估模型在经过特定指令微调后的信息抽取性能。

背景与挑战

背景概述

信息抽取 (IE) 领域旨在从文本来源中提取结构化数据，这在知识图谱构建、问答系统等领域具有广泛的应用。传统的 IE 方法通常针对不同的任务设计特定的架构，或者将各种 IE 任务统一为序列到序列的文本生成方式。然而，这些方法存在局限性，例如对预定义标签的约束和对动态世界需求的适应性不足。近年来，大型语言模型 (LLMs) 的出现为通用指令式 IE 能力提供了可能性，但 LLMs 在 IE 任务上的有效性仍然不足，主要原因在于缺乏具有全面 IE 指令的数据集。为了解决这一问题，我们介绍了 INSTRUCTIE，一个包含 12 个不同领域和 123 种关系的双语指令式信息抽取数据集。INSTRUCTIE 的创建时间是在 2024 年 4 月，主要研究人员来自浙江大学、浙江大学-蚂蚁集团知识图谱联合实验室、蚂蚁集团和爱丁堡大学。该数据集的核心研究问题是探索如何利用 LLMs 提取结构化知识，并构建一个涵盖广泛领域和关系的指令式 IE 数据集。INSTRUCTIE 对相关领域的影响力主要体现在为 LLMs 在 IE 领域的应用提供了新的数据集和框架，并为知识图谱构建和自动数据标注研究提供了新的方向。

当前挑战

INSTRUCTIE 数据集的创建和利用面临着一些挑战。首先，数据集仅包含中文和英文版本，未来需要扩展到更多语言。其次，数据集仅涵盖 12 个领域，未来需要扩展到更多领域，特别是更专业的领域。最后，尽管我们采用了 LLMs 来补充缺失的三元组和自然语言推理模型来过滤不真实的三元组，以提高远监督标注数据的质量，但我们仍然发现训练集中存在一定的噪声。

常用场景

经典使用场景

INSTRUCTIE数据集是一个基于双语指令的信息提取数据集，涵盖12个不同的领域，旨在解决现有信息提取数据集覆盖范围有限、构建成本高昂的问题。该数据集主要应用于大型语言模型的信息提取能力训练，特别是在低资源场景下，通过指令微调，模型能够更好地理解和遵循指令，从而提高信息提取的准确性和泛化能力。

衍生相关工作

INSTRUCTIE数据集的发布推动了基于指令的信息提取研究，并衍生了相关的经典工作。例如，GoLLIE、InstructUIE、YAYI-UIE等模型都是基于信息提取指令数据进行训练的，旨在提高模型的信息提取能力。此外，INSTRUCTIE数据集的构建框架KG2Instruction也为自动生成信息提取数据集提供了新的思路和方法，为相关领域的研究和应用提供了新的工具和资源。

数据集最近研究