中文突发事件语料库（Chinese Emergency Corpus）

github2020-10-22 更新2024-05-31 收录

下载链接：

https://github.com/Frozenliu/CEC-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文突发事件语料库是由上海大学（语义智能实验室）所构建，根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。CEC采用了XML语言作为标注格式，其中包含了六个最重要的数据结构（标记）：Event、Denoter、Time、Location、Participant和Object。Event用于描述事件；Denoter、Time、Location、Participant和Object用于描述事件的指示词和要素。此外，我们还为每一个标记定义了与之相关的属性。与ACE和TimeBank语料库相比，CEC语料库的规模虽然偏小，但是对事件和事件要素的标注却最为全面。

The Chinese Emergency Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. It collects news reports on five types of emergencies (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet, based on the classification system of the 'National Emergency Response Plan for Public Emergencies' issued by the State Council. The raw corpus undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are saved into the corpus, totaling 332 articles. The CEC uses XML as the annotation format, which includes six key data structures (tags): Event, Denoter, Time, Location, Participant, and Object. The Event tag describes the event, while Denoter, Time, Location, Participant, and Object describe the indicators and elements of the event. Additionally, we have defined attributes related to each tag. Compared to the ACE and TimeBank corpora, the CEC corpus, although smaller in scale, provides the most comprehensive annotation of events and their elements.

创建时间：

2020-10-22

原始信息汇总

中文突发事件语料库（CEC）概述

数据集构建

构建机构：上海大学语义智能实验室
数据来源：互联网上的新闻报道
事件分类：地震、火灾、交通事故、恐怖袭击、食物中毒，共5类
文本数量：332篇

数据处理

预处理步骤：文本预处理、文本分析、事件标注、一致性检查
标注格式：XML语言
主要数据结构：Event、Denoter、Time、Location、Participant、Object
属性定义：每个标记都有相关属性

研究支持

资助项目：国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究（编号：61305053）”和“事件本体模型与应用技术”（编号：60975033）

学术成果

研究论文：包括事件本体的文本事件要素抽取方法、事件因果关系抽取等
学位论文：涉及面向事件的知识处理、事件本体构建等关键问题的研究

数据集特点

规模对比：与ACE和TimeBank语料库相比，CEC规模较小
标注全面性：对事件和事件要素的标注最为全面

搜集汇总

数据集介绍

构建方式

中文突发事件语料库（CEC）由上海大学语义智能实验室构建，依据《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了五类突发事件的新闻报道作为原始语料。这些语料经过文本预处理、分析、事件标注及一致性检查等步骤，最终以XML格式保存，共计332篇文本。标注过程中，采用了六个核心数据结构（标记）：Event、Denoter、Time、Location、Participant和Object，每个标记均定义了相关属性，确保事件及其要素的全面标注。

使用方法

CEC语料库适用于事件抽取、事件推理及语义分析等领域的研究。用户可通过解析XML文件获取标注信息，利用Event、Denoter、Time等标记进行事件要素的提取与分析。语料库的标注体系支持多种自然语言处理任务，如事件因果关系抽取、时间短语识别等。研究者可参考相关论文和博士、硕士论文，深入理解语料库的构建逻辑与应用场景，从而在突发事件文本分析中发挥其最大价值。

背景与挑战

背景概述

中文突发事件语料库（Chinese Emergency Corpus, CEC）由上海大学语义智能实验室构建，旨在为中文突发事件的研究提供高质量的标注数据。该语料库依据《国家突发公共事件总体应急预案》的分类体系，收集了地震、火灾、交通事故、恐怖袭击和食物中毒五类突发事件的新闻报道，并通过文本预处理、分析和事件标注等步骤，最终形成了包含332篇文本的语料库。CEC采用XML格式进行标注，涵盖了事件、指示词、时间、地点、参与者和对象等核心数据结构，其标注的全面性在同类语料库中具有显著优势。该语料库的构建得到了国家自然科学基金项目的支持，并在事件推理、事件要素抽取等领域产生了广泛影响。

当前挑战

中文突发事件语料库在构建和应用中面临多重挑战。首先，突发事件的新闻报道具有时效性强、语言表达多样化的特点，如何从海量互联网数据中筛选出高质量的生语料并进行标准化处理，是构建过程中的一大难题。其次，事件要素的标注需要高度的语义理解能力，尤其是在中文语境下，时间、地点等要素的表达形式复杂多样，标注的一致性和准确性难以保证。此外，尽管CEC在事件标注的全面性上表现突出，但其规模相对较小，限制了其在深度学习等数据驱动方法中的应用潜力。如何扩展语料库规模并提升标注质量，是未来研究的重要方向。

常用场景

经典使用场景

中文突发事件语料库（CEC）在自然语言处理领域中被广泛应用于事件抽取和文本分析的研究。该数据集通过详细的XML标注格式，提供了丰富的事件要素信息，如时间、地点、参与者等，使得研究者能够深入分析突发事件的结构和语义。CEC的标注全面性使其成为训练和评估事件抽取算法的理想选择，尤其是在中文语境下，为相关技术的开发提供了坚实的基础。

解决学术问题

CEC解决了中文文本中事件要素识别和事件关系抽取的关键问题。通过提供详细的标注数据，研究者能够开发出更精确的算法来识别事件的时间、地点、参与者等要素，并进一步分析事件之间的因果关系。这不仅推动了中文自然语言处理技术的发展，还为事件本体的构建和事件推理提供了重要的数据支持，具有深远的学术意义。

实际应用

在实际应用中，CEC被广泛应用于应急管理、新闻分析和社交媒体监控等领域。通过对突发事件的文本进行自动分析和标注，相关部门能够快速获取事件的关键信息，从而做出及时的决策和响应。例如，在地震或火灾等突发事件中，CEC可以帮助自动提取事件的时间、地点和影响范围，为应急指挥提供数据支持。

数据集最近研究