fkdosilovic/docee-event-classification
收藏Hugging Face2022-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fkdosilovic/docee-event-classification
下载链接
链接失效反馈官方服务:
资源简介:
DocEE数据集是一个包含超过27k新闻和维基百科文章的英文数据集,主要用于大规模文档级别的事件提取。数据集包含两个分割:训练和测试,训练分割包含21949个文档,测试分割包含5536个文档,总共包含27485个文档,分为59种事件类型。数据字段包括标题、文本、事件类型、日期和元数据。
The DocEE dataset is an English-language dataset containing over 27,000 news articles and Wikipedia entries, primarily used for large-scale document-level event extraction. It includes two data splits: training and test. The training split contains 21,949 documents, while the test split has 5,536 documents, with a total of 27,485 documents categorized into 59 distinct event types. The dataset's data fields cover title, text, event type, date, and metadata.
提供机构:
fkdosilovic
原始信息汇总
DocEE 数据集概述
数据集描述
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语
- 数据集大小: 10K<n<100K
- 源数据集: 原始数据
- 标签: wiki, news, event-detection
- 任务类别: text-classification
- 任务ID: multi-class-classification
数据集概要
DocEE 数据集是一个包含超过27,000篇新闻和维基百科文章的英语数据集,主要用于大规模文档级事件提取的标注和收集。
数据字段
title: 待定text: 待定event_type: 待定date: 待定metadata: 待定
注意: 此仓库仅包含数据集的事件检测部分。
数据分割
数据集分为两个部分:训练集和测试集。训练集包含21,949篇文档,测试集包含5,536篇文档。总计27,485篇文档被分类为59种事件类型。
与原始分割的差异
原始数据集分为训练集、验证集和测试集三个部分。为了本仓库的目的,原始分割被重新组合并分为训练集和测试集,同时确保分割在文档来源(新闻和维基)和事件类型上保持分层。
原始的title列还包含来自date和metadata列的信息。现在它们被分离成三个独立的列:date、metadata和title。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,事件抽取任务对大规模、细粒度的标注数据需求日益增长。DocEE数据集的构建依托于超过27,000篇新闻与维基百科文章,通过系统化的标注流程,专注于文档级别的事件抽取。原始数据经过精心筛选与分层处理,确保覆盖多样化的文本来源与事件类型。构建过程中,原始的三划分(训练、验证、测试)被重新整合,并依据文档来源和事件类别进行分层划分,最终形成训练集与测试集,以支持更稳健的模型评估。
使用方法
在应用DocEE数据集时,研究者可将其用于多类文本分类任务,特别是文档级别的事件检测。数据集已划分为训练集(21,949篇文档)与测试集(5,536篇文档),用户可直接加载这些分割进行模型训练与评估。通过整合标题、文本和事件类型等字段,可以构建端到端的事件分类管道。建议在预处理中考虑文本来源的差异,以优化模型性能,并参考原始论文中的实验设置,以确保结果的可比性与科学性。
背景与挑战
背景概述
在自然语言处理领域,文档级事件抽取作为信息抽取的关键分支,旨在从非结构化文本中识别并结构化复杂事件信息。DocEE数据集由研究团队于2022年发布,其核心研究问题聚焦于大规模、细粒度的事件类型分类,涵盖了新闻与维基百科文章中的59种事件类别。该数据集的构建推动了文档级事件抽取模型的演进,为后续研究提供了丰富的标注资源,显著提升了事件抽取任务在真实场景中的适用性与准确性。
当前挑战
DocEE数据集所针对的文档级事件分类任务,面临事件类型细粒度划分带来的类别混淆挑战,以及长文档中事件语义分散性与上下文依赖性的建模难题。在构建过程中,数据采集需平衡新闻与维基百科等多源文本的覆盖度,同时确保事件标注在跨文档中的一致性与标准化,这要求精细的标注策略与质量控制机制,以应对大规模语料中事件表达的多样性与复杂性。
常用场景
经典使用场景
在自然语言处理领域,文档级事件抽取作为信息抽取的关键任务,旨在从长文本中识别并结构化事件信息。DocEE数据集以其大规模和细粒度标注特性,为这一任务提供了经典基准。研究者通常利用该数据集训练和评估深度学习模型,如基于Transformer的架构,以探索文档上下文中的事件检测与分类性能,推动模型在复杂语义理解上的进步。
解决学术问题
DocEE数据集解决了文档级事件抽取中数据稀缺和标注粒度不足的学术挑战。传统事件抽取数据集多局限于句子级别,难以捕捉跨句事件关联。该数据集通过提供超过27,000篇新闻和维基百科文章,涵盖59种事件类型,支持了长文档中事件边界识别、类型分类及上下文依赖建模的研究,促进了事件抽取从局部到全局的范式转变。
实际应用
在实际应用中,DocEE数据集支撑了新闻分析、金融监控和知识图谱构建等场景。例如,媒体机构可利用基于该数据集训练的模型,自动从海量报道中提取关键事件,辅助舆情追踪;在金融领域,模型能识别公司并购或政策变动事件,为风险评估提供数据支持。这些应用提升了信息处理效率,推动了自动化决策系统的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,文档级事件抽取作为信息抽取的关键分支,正逐渐从句子级分析转向更复杂的跨句语义理解。DocEE数据集以其大规模和细粒度的事件类型标注,为这一前沿方向提供了重要基准。当前研究热点集中于利用预训练语言模型,如BERT和GPT系列,结合图神经网络或注意力机制,以捕捉文档中的长距离依赖关系和事件间关联。例如,研究者们探索基于DocEE的多事件联合抽取与事件时序推理,以提升对新闻和维基百科文本中复杂事件链的解析能力。这些进展不仅推动了事件检测在金融监控、舆情分析等实际场景的应用,还促进了领域自适应和低资源学习方法的创新,为构建更鲁棒、可解释的事件抽取系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



