zjunlp/InstructIE
收藏InstructIE数据集概述
基本信息
- 许可证: MIT
- 任务类别: 文本到文本生成
- 语言: 英语、中文
- 标签: 信息抽取、实体、关系
- 数据集名称: InstructIE
- 大小类别: 100M<n<1B
数据集描述
InstructIE是一个基于主题模式的双语信息抽取数据集。该数据集将文本分为12个主题,包括人物、地理地点、建筑、作品、生物、人工物体、自然科学、组织、交通、事件、天文学、医学。每个主题都有相应的设计模式。
数据集结构
- 训练集:
train_zh_old.jsontrain_en_old.jsontrain_zh.jsontrain_en.json
- 验证集:
dev_zh.jsondev_en.json
- 测试集:
test_zh.jsontest_en.json
- 模式信息:
schema_zh.jsonschema_en.json
- 子集:
InstrueIE-zh和InstrueIE-en包含多个子主题的数据集文件
数据示例
json { "id": "841ef2af4cfe766dd9295fb7daf321c299df0fd0cef14820dfcb421161eed4a1", "text": "NGC1313 is a galaxy in the constellation of Reticulum. It was discovered by the Australian astronomer James Dunlop on September 27, 1826. It has a prominent uneven shape, and its axis does not completely revolve around its center. Near NGC1313, there is another galaxy, NGC1309.", "relation": [ {"head": "NGC1313", "head_type": "astronomical object type", "relation": "time of discovery", "tail": "September 27, 1826", "tail_type": "time"}, {"head": "NGC1313", "head_type": "astronomical object type", "relation": "discoverer or inventor", "tail": "James Dunlop", "tail_type": "organization/human"}, {"head": "NGC1313", "head_type": "astronomical object type", "relation": "of", "tail": "Reticulum", "tail_type": "astronomical object type"} ] }
数据字段
- id: 每个数据点的唯一标识符。
- cate: 文本主题的类别,共有12个不同的主题类别。
- text: 模型的输入文本,目标是抽取所有涉及的关系三元组。
- relation: 描述文本中包含的关系三元组,即(头实体, 头实体类型, 关系, 尾实体, 尾实体类型)。




