five

IE Dataset Zoo

收藏
github2024-01-05 更新2024-05-31 收录
下载链接:
https://github.com/zxlzr/IEDatasets
下载链接
链接失效反馈
官方服务:
资源简介:
信息抽取数据集集合,包含多个数据集,用于关系抽取任务。

A collection of information extraction datasets, encompassing multiple datasets designed for relation extraction tasks.
创建时间:
2020-03-12
原始信息汇总

数据集概述

关系抽取数据集

数据集名称 关系数量 实例数量 特征类型 数据来源 资源链接 原始链接
Fewrel 100 44,800 监督学习 Wikipedia+Wikidata 链接 链接
TACRED 42 68,120 监督学习 Newswire+web - 链接
Semeval 19 8,000 监督学习 Web 链接 链接
Wikidata 352 495,883 远程监督 Wikipedia+Wikidata 链接 链接
NYT10(tsinghua) 53 522,043 远程监督 NYT+Freebase 链接 链接
NYT10-large(tsinghua) 53 570,088 远程监督 NYT+Freebase 链接 链接
NYT-Wikidata 100 882,177 远程监督 NYT+Wikidata 链接 链接
NYT10-29 29 70,339 远程监督 NYT+Freebase 链接 链接
NYT11-12 12 62,648 远程监督+监督学习 NYT+Freebase 链接 链接
NYT-manual 24 235,982 远程监督 NYT+Freebase 链接 链接
NYT-Wiki(zju) 73 1,989,377 远程监督 NYT-Wikipedia-Wikidata 链接 链接
Wiki-KBP 19 23,784 远程监督 Wikipedia+KBP+Freebase 链接 链接
PubMed-BioInfer 94 1,580 远程监督 PubMed+NESH - 链接
WebNLG 14 75,325 监督学习 Web - 链接
SKE 50 173,108 监督学习 Web 链接 链接
KBP37 37 15,916 监督学习 Web 链接 链接
T-REx 642 6.3M 远程监督 Wikipedia+Wikidata - 链接
Google-RE 5 59,576 监督学习 Wikipedia - 链接
ADE 3 23,516 监督学习 Medical Report 链接 链接

事件抽取数据集

数据集名称 实例数量 特征类型 数据来源 资源链接 原始链接
ACE05 599 监督学习 Web - 链接
FewEvent(zju) 71,385 监督学习 ACE05+_TAC-KBP17 链接 链接
CCKS2019_Event 17,815 监督学习 Financial Announcements 链接 链接
Doc2EDAG 32,040 监督学习 Financial Announcements 链接 链接
搜集汇总
数据集介绍
main_image_url
构建方式
IE Dataset Zoo 数据集的构建依托于多种来源的文本数据,包括维基百科、新闻文章、医学报告等。数据集的构建方法主要分为监督学习和远程监督两种。监督学习数据集通过人工标注的方式获取高质量的关系实例,如 Fewrel 和 TACRED;而远程监督数据集则通过知识库(如 Wikidata 和 Freebase)与文本对齐自动生成关系实例,如 NYT10 和 T-REx。这种多样化的构建方式确保了数据集在覆盖范围和标注质量上的平衡。
使用方法
IE Dataset Zoo 数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究者可以通过下载数据集资源文件,直接加载数据进行模型训练和评估。数据集通常以结构化格式(如 JSON 或 CSV)提供,便于解析和处理。对于监督学习数据集,研究者可以利用标注的关系实例进行模型训练;对于远程监督数据集,则可以通过知识库对齐的方式进一步优化数据质量。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手。
背景与挑战
背景概述
IE Dataset Zoo 是一个专注于信息抽取(Information Extraction, IE)领域的数据集集合,涵盖了关系抽取(Relation Extraction)和事件抽取(Event Extraction)等多个子任务。该数据集由多个研究机构和学者共同构建,旨在为自然语言处理(NLP)领域的研究者提供丰富且多样化的数据资源。其核心研究问题在于如何从非结构化文本中自动识别和抽取实体之间的关系以及事件信息,从而为知识图谱构建、问答系统等应用提供支持。IE Dataset Zoo 的创建时间可追溯至近年来信息抽取技术的快速发展期,其影响力不仅体现在推动了关系抽取和事件抽取算法的进步,还为低资源场景下的模型训练提供了重要数据支持。
当前挑战
IE Dataset Zoo 面临的挑战主要体现在两个方面。首先,在领域问题方面,关系抽取和事件抽取任务本身具有较高的复杂性,尤其是在处理长文本、多义性表达以及低资源语言时,模型的性能往往难以保证。其次,在数据集构建过程中,如何确保数据的质量与多样性是一个关键问题。由于许多数据集依赖于远程监督(Distant Supervision)方法,数据噪声和标注不一致性成为主要障碍。此外,不同数据源的格式和标准差异较大,整合和统一这些数据也带来了额外的技术挑战。这些问题的解决需要更先进的算法和更精细的标注策略,以提升数据集的实用性和可靠性。
常用场景
经典使用场景
在信息抽取领域,IE Dataset Zoo数据集广泛应用于关系抽取和事件抽取任务。其经典使用场景包括利用Fewrel和TACRED等数据集进行关系分类,以及通过ACE05和FewEvent等数据集进行事件检测。这些数据集通过提供大量标注数据,帮助研究者训练和评估各种机器学习模型,尤其是在少样本学习场景下,Fewrel数据集的表现尤为突出。
解决学术问题
IE Dataset Zoo数据集解决了信息抽取领域中的多个关键学术问题。例如,Fewrel数据集通过提供大规模的有监督少样本关系分类数据,推动了少样本学习技术的发展。TACRED数据集则通过丰富的新闻和网络数据,提升了关系抽取模型的泛化能力。此外,NYT10和NYT-Wikidata等数据集通过远程监督方法,解决了大规模关系抽取中的标注数据稀缺问题,为研究者提供了宝贵的资源。
实际应用
在实际应用中,IE Dataset Zoo数据集被广泛用于构建智能问答系统、知识图谱构建和自然语言理解系统。例如,TACRED数据集在新闻领域的实体关系抽取中表现出色,帮助自动化新闻摘要和事件追踪。NYT10和NYT-Wikidata数据集则被用于构建大规模的知识图谱,支持搜索引擎和推荐系统的智能化升级。此外,ACE05和FewEvent数据集在金融事件检测和风险预警系统中发挥了重要作用。
数据集最近研究
最新研究方向
在信息抽取领域,IE Dataset Zoo作为一个综合性的数据集集合,近年来在关系抽取和事件抽取的研究中发挥了重要作用。特别是在关系抽取方面,FewRel和TACRED等数据集推动了少样本学习和监督学习方法的创新。FewRel通过大规模监督数据集的构建,为少样本关系分类提供了新的评估基准,而TACRED则在位置感知注意力机制的引入下,显著提升了槽填充任务的性能。此外,NYT10和NYT-Wikidata等基于远程监督的数据集,通过结合知识图谱嵌入和图卷积网络,推动了长尾关系抽取的研究。在事件抽取方面,FewEvent和Doc2EDAG等数据集通过引入元学习和端到端文档级框架,为低资源事件检测和中文金融事件抽取提供了新的解决方案。这些研究不仅拓展了信息抽取的技术边界,也为实际应用场景中的知识图谱构建和事件分析提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作