five

zjunlp/InstructIE

收藏
Hugging Face2024-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zjunlp/InstructIE
下载链接
链接失效反馈
官方服务:
资源简介:
InstructIE是一个基于主题模式的双语(中文和英文)信息抽取数据集。数据集将文本分为12个主题,包括人物、地理位置、建筑、作品、生物、人工物体、自然科学、组织、交通、事件、天文学和医学。每个主题都有相应的模式设计,旨在让模型在InstructIE上学习通用的抽取能力,并将其推广到其他领域。数据集包括训练集、验证集和测试集,分别有中文和英文版本。此外,数据集中还提供了模式信息文件,用于描述12个领域的模式。数据集的每个数据点包含唯一标识符、文本类别、输入文本和关系三元组。训练集中还提供了实体字段,用于执行实体命名识别任务。

InstructIE是一个基于主题模式的双语(中文和英文)信息抽取数据集。数据集将文本分为12个主题,包括人物、地理位置、建筑、作品、生物、人工物体、自然科学、组织、交通、事件、天文学和医学。每个主题都有相应的模式设计,旨在让模型在InstructIE上学习通用的抽取能力,并将其推广到其他领域。数据集包括训练集、验证集和测试集,分别有中文和英文版本。此外,数据集中还提供了模式信息文件,用于描述12个领域的模式。数据集的每个数据点包含唯一标识符、文本类别、输入文本和关系三元组。训练集中还提供了实体字段,用于执行实体命名识别任务。
提供机构:
zjunlp
原始信息汇总

InstructIE数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 文本到文本生成
  • 语言: 英语、中文
  • 标签: 信息抽取、实体、关系
  • 数据集名称: InstructIE
  • 大小类别: 100M<n<1B

数据集描述

InstructIE是一个基于主题模式的双语信息抽取数据集。该数据集将文本分为12个主题,包括人物、地理地点、建筑、作品、生物、人工物体、自然科学、组织、交通、事件、天文学、医学。每个主题都有相应的设计模式。

数据集结构

  • 训练集:
    • train_zh_old.json
    • train_en_old.json
    • train_zh.json
    • train_en.json
  • 验证集:
    • dev_zh.json
    • dev_en.json
  • 测试集:
    • test_zh.json
    • test_en.json
  • 模式信息:
    • schema_zh.json
    • schema_en.json
  • 子集:
    • InstrueIE-zhInstrueIE-en 包含多个子主题的数据集文件

数据示例

json { "id": "841ef2af4cfe766dd9295fb7daf321c299df0fd0cef14820dfcb421161eed4a1", "text": "NGC1313 is a galaxy in the constellation of Reticulum. It was discovered by the Australian astronomer James Dunlop on September 27, 1826. It has a prominent uneven shape, and its axis does not completely revolve around its center. Near NGC1313, there is another galaxy, NGC1309.", "relation": [ {"head": "NGC1313", "head_type": "astronomical object type", "relation": "time of discovery", "tail": "September 27, 1826", "tail_type": "time"}, {"head": "NGC1313", "head_type": "astronomical object type", "relation": "discoverer or inventor", "tail": "James Dunlop", "tail_type": "organization/human"}, {"head": "NGC1313", "head_type": "astronomical object type", "relation": "of", "tail": "Reticulum", "tail_type": "astronomical object type"} ] }

数据字段

  • id: 每个数据点的唯一标识符。
  • cate: 文本主题的类别,共有12个不同的主题类别。
  • text: 模型的输入文本,目标是抽取所有涉及的关系三元组。
  • relation: 描述文本中包含的关系三元组,即(头实体, 头实体类型, 关系, 尾实体, 尾实体类型)。
搜集汇总
数据集介绍
main_image_url
构建方式
在信息抽取领域,为提升模型对多样化主题的泛化能力,InstructIE数据集应运而生。该数据集采用主题驱动的构建策略,将文本划分为人物、地理、建筑、作品、生物、人造物、自然科学、组织、交通、事件、天文、医学等十二个主题类别。每个主题均设计了对应的结构化模式,通过精心标注的关系三元组(头实体、头实体类型、关系、尾实体、尾实体类型)构建而成。数据来源于双语文本,分别提供中文和英文版本,确保了跨语言信息抽取任务的适用性。
特点
InstructIE数据集以其双语特性与主题多样性而著称,覆盖了从自然科学到人文社会的广泛领域。其核心特点在于每个数据点均包含完整的实体关系标注,支持细粒度的信息抽取任务。数据集结构清晰,提供了训练集、验证集和测试集,便于模型开发与评估。此外,训练集中还额外包含实体命名识别字段,为多任务学习提供了可能。这种设计不仅增强了数据集的实用性,也为信息抽取模型的泛化能力提供了坚实基础。
使用方法
使用InstructIE数据集时,研究人员可依据其提供的结构化模式,灵活设计信息抽取任务的指令与输出格式。数据集以JSON格式组织,每个条目包含唯一标识符、文本类别、原始文本及关系三元组列表。开发者可直接加载中文或英文版本,用于训练、验证和测试基于指令的信息抽取模型。通过利用数据集中的实体与关系标注,能够构建端到端的信息抽取系统,或进行跨领域、跨语言的迁移学习研究。
背景与挑战
背景概述
信息抽取作为自然语言处理的核心任务之一,旨在从非结构化文本中自动识别并结构化关键信息。2023年,浙江大学知识引擎实验室的研究团队发布了InstructIE数据集,这是一个基于指令的双语信息抽取数据集。该数据集围绕12个主题领域构建了精细的模式框架,旨在通过指令微调技术提升模型在跨领域信息抽取任务中的泛化能力。其发布标志着信息抽取研究从传统监督学习向指令驱动范式的演进,为后续大规模指令数据集IEPile的构建奠定了重要基础。
当前挑战
信息抽取领域长期面临模式异构与领域迁移的挑战,不同领域间实体与关系定义的差异导致模型泛化能力受限。InstructIE通过构建跨主题的统一模式试图缓解这一问题,但其构建过程需平衡模式通用性与领域特异性,并确保中英文双语标注的一致性。此外,将非结构化文本转化为结构化关系三元组时,涉及复杂语义理解与长距离依赖建模,这对标注质量与模型学习提出了较高要求。
常用场景
经典使用场景
在信息抽取领域,InstructIE数据集以其双语指令驱动的特性,为模型提供了跨主题的通用抽取能力训练平台。该数据集覆盖了人物、地理、建筑、作品、生物、人造物、自然科学、组织、交通、事件、天文、医学等十二个主题,每个主题均设计了精细的模式结构。研究者通常利用该数据集训练模型从非结构化文本中识别并抽取实体关系三元组,从而实现对多样化领域知识的统一理解与结构化表示。
解决学术问题
该数据集有效应对了传统信息抽取任务中领域适应性与泛化能力的挑战。通过引入指令引导的抽取范式,它促进了模型对复杂语义模式的学习,解决了跨领域知识迁移的难题。其双语特性进一步推动了多语言信息抽取的统一建模,为构建具备广泛适应性的智能抽取系统提供了关键数据支撑,显著提升了学术研究中关于语义理解与结构化知识构建的前沿探索。
衍生相关工作
基于InstructIE数据集,衍生出了一系列经典研究工作,如后续发布的大规模双语信息抽取指令调优数据集IEPile,以及基于该数据集训练的baichuan2-13b-iepile-lora与llama2-13b-iepile-lora等模型。这些工作进一步扩展了指令驱动信息抽取的规模与性能,推动了如KnowLM-13b-ie等专用信息抽取模型的发展,为整个自然语言处理领域提供了重要的方法论与资源积累。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作