IE Dataset Zoo
收藏github2024-01-05 更新2024-05-31 收录
下载链接:
https://github.com/zxlzr/IEDatasets
下载链接
链接失效反馈官方服务:
资源简介:
信息抽取数据集集合,包含多个数据集,用于关系抽取任务。
A collection of information extraction datasets, encompassing multiple datasets designed for relation extraction tasks.
创建时间:
2020-03-12
原始信息汇总
数据集概述
关系抽取数据集
| 数据集名称 | 关系数量 | 实例数量 | 特征类型 | 数据来源 | 资源链接 | 原始链接 |
|---|---|---|---|---|---|---|
| Fewrel | 100 | 44,800 | 监督学习 | Wikipedia+Wikidata | 链接 | 链接 |
| TACRED | 42 | 68,120 | 监督学习 | Newswire+web | - | 链接 |
| Semeval | 19 | 8,000 | 监督学习 | Web | 链接 | 链接 |
| Wikidata | 352 | 495,883 | 远程监督 | Wikipedia+Wikidata | 链接 | 链接 |
| NYT10(tsinghua) | 53 | 522,043 | 远程监督 | NYT+Freebase | 链接 | 链接 |
| NYT10-large(tsinghua) | 53 | 570,088 | 远程监督 | NYT+Freebase | 链接 | 链接 |
| NYT-Wikidata | 100 | 882,177 | 远程监督 | NYT+Wikidata | 链接 | 链接 |
| NYT10-29 | 29 | 70,339 | 远程监督 | NYT+Freebase | 链接 | 链接 |
| NYT11-12 | 12 | 62,648 | 远程监督+监督学习 | NYT+Freebase | 链接 | 链接 |
| NYT-manual | 24 | 235,982 | 远程监督 | NYT+Freebase | 链接 | 链接 |
| NYT-Wiki(zju) | 73 | 1,989,377 | 远程监督 | NYT-Wikipedia-Wikidata | 链接 | 链接 |
| Wiki-KBP | 19 | 23,784 | 远程监督 | Wikipedia+KBP+Freebase | 链接 | 链接 |
| PubMed-BioInfer | 94 | 1,580 | 远程监督 | PubMed+NESH | - | 链接 |
| WebNLG | 14 | 75,325 | 监督学习 | Web | - | 链接 |
| SKE | 50 | 173,108 | 监督学习 | Web | 链接 | 链接 |
| KBP37 | 37 | 15,916 | 监督学习 | Web | 链接 | 链接 |
| T-REx | 642 | 6.3M | 远程监督 | Wikipedia+Wikidata | - | 链接 |
| Google-RE | 5 | 59,576 | 监督学习 | Wikipedia | - | 链接 |
| ADE | 3 | 23,516 | 监督学习 | Medical Report | 链接 | 链接 |
事件抽取数据集
搜集汇总
数据集介绍

构建方式
IE Dataset Zoo 数据集的构建依托于多种来源的文本数据,包括维基百科、新闻文章、医学报告等。数据集的构建方法主要分为监督学习和远程监督两种。监督学习数据集通过人工标注的方式获取高质量的关系实例,如 Fewrel 和 TACRED;而远程监督数据集则通过知识库(如 Wikidata 和 Freebase)与文本对齐自动生成关系实例,如 NYT10 和 T-REx。这种多样化的构建方式确保了数据集在覆盖范围和标注质量上的平衡。
使用方法
IE Dataset Zoo 数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究者可以通过下载数据集资源文件,直接加载数据进行模型训练和评估。数据集通常以结构化格式(如 JSON 或 CSV)提供,便于解析和处理。对于监督学习数据集,研究者可以利用标注的关系实例进行模型训练;对于远程监督数据集,则可以通过知识库对齐的方式进一步优化数据质量。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手。
背景与挑战
背景概述
IE Dataset Zoo 是一个专注于信息抽取(Information Extraction, IE)领域的数据集集合,涵盖了关系抽取(Relation Extraction)和事件抽取(Event Extraction)等多个子任务。该数据集由多个研究机构和学者共同构建,旨在为自然语言处理(NLP)领域的研究者提供丰富且多样化的数据资源。其核心研究问题在于如何从非结构化文本中自动识别和抽取实体之间的关系以及事件信息,从而为知识图谱构建、问答系统等应用提供支持。IE Dataset Zoo 的创建时间可追溯至近年来信息抽取技术的快速发展期,其影响力不仅体现在推动了关系抽取和事件抽取算法的进步,还为低资源场景下的模型训练提供了重要数据支持。
当前挑战
IE Dataset Zoo 面临的挑战主要体现在两个方面。首先,在领域问题方面,关系抽取和事件抽取任务本身具有较高的复杂性,尤其是在处理长文本、多义性表达以及低资源语言时,模型的性能往往难以保证。其次,在数据集构建过程中,如何确保数据的质量与多样性是一个关键问题。由于许多数据集依赖于远程监督(Distant Supervision)方法,数据噪声和标注不一致性成为主要障碍。此外,不同数据源的格式和标准差异较大,整合和统一这些数据也带来了额外的技术挑战。这些问题的解决需要更先进的算法和更精细的标注策略,以提升数据集的实用性和可靠性。
常用场景
经典使用场景
在信息抽取领域,IE Dataset Zoo数据集广泛应用于关系抽取和事件抽取任务。其经典使用场景包括利用Fewrel和TACRED等数据集进行关系分类,以及通过ACE05和FewEvent等数据集进行事件检测。这些数据集通过提供大量标注数据,帮助研究者训练和评估各种机器学习模型,尤其是在少样本学习场景下,Fewrel数据集的表现尤为突出。
解决学术问题
IE Dataset Zoo数据集解决了信息抽取领域中的多个关键学术问题。例如,Fewrel数据集通过提供大规模的有监督少样本关系分类数据,推动了少样本学习技术的发展。TACRED数据集则通过丰富的新闻和网络数据,提升了关系抽取模型的泛化能力。此外,NYT10和NYT-Wikidata等数据集通过远程监督方法,解决了大规模关系抽取中的标注数据稀缺问题,为研究者提供了宝贵的资源。
实际应用
在实际应用中,IE Dataset Zoo数据集被广泛用于构建智能问答系统、知识图谱构建和自然语言理解系统。例如,TACRED数据集在新闻领域的实体关系抽取中表现出色,帮助自动化新闻摘要和事件追踪。NYT10和NYT-Wikidata数据集则被用于构建大规模的知识图谱,支持搜索引擎和推荐系统的智能化升级。此外,ACE05和FewEvent数据集在金融事件检测和风险预警系统中发挥了重要作用。
数据集最近研究
最新研究方向
在信息抽取领域,IE Dataset Zoo作为一个综合性的数据集集合,近年来在关系抽取和事件抽取的研究中发挥了重要作用。特别是在关系抽取方面,FewRel和TACRED等数据集推动了少样本学习和监督学习方法的创新。FewRel通过大规模监督数据集的构建,为少样本关系分类提供了新的评估基准,而TACRED则在位置感知注意力机制的引入下,显著提升了槽填充任务的性能。此外,NYT10和NYT-Wikidata等基于远程监督的数据集,通过结合知识图谱嵌入和图卷积网络,推动了长尾关系抽取的研究。在事件抽取方面,FewEvent和Doc2EDAG等数据集通过引入元学习和端到端文档级框架,为低资源事件检测和中文金融事件抽取提供了新的解决方案。这些研究不仅拓展了信息抽取的技术边界,也为实际应用场景中的知识图谱构建和事件分析提供了有力支持。
以上内容由遇见数据集搜集并总结生成



