中文突发事件语料库(Chinese Emergency Corpus,CEC)
收藏github2024-03-19 更新2024-05-31 收录
下载链接:
https://github.com/daselab/CEC-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中。CEC采用了XML语言作为标注格式,其中包含了六个最重要的数据结构(标记):Event、Denoter、Time、Location、Participant和Object。Event用于描述事件;Denoter、Time、Location、Participant和Object用于描述事件的指示词和要素。此外,我们还为每一个标记定义了与之相关的属性。与ACE和TimeBank语料库相比,CEC语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。
The Chinese Emergency Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. It collects news reports on five types of emergencies (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet, based on the classification system of the 'National Emergency Response Plan for Public Emergencies' issued by the State Council. The raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are saved into the corpus. The CEC uses XML as the annotation format, which includes six key data structures (tags): Event, Denoter, Time, Location, Participant, and Object. The Event tag describes the event, while Denoter, Time, Location, Participant, and Object describe the indicators and elements of the event. Additionally, attributes related to each tag are defined. Compared to the ACE and TimeBank corpora, the CEC corpus, although smaller in scale, provides the most comprehensive annotation of events and their elements.
创建时间:
2015-09-29
原始信息汇总
中文突发事件语料库(CEC)概述
数据集构建
- 构建机构:上海大学(语义智能实验室)
- 数据来源:互联网上的新闻报道
- 事件分类:地震、火灾、交通事故、恐怖袭击、食物中毒
- 文章总数:524篇(截至2021年4月19日)
数据处理
- 预处理步骤:文本预处理、文本分析、事件标注、一致性检查
- 标注格式:XML语言
- 主要数据结构:Event、Denoter、Time、Location、Participant、Object
- 属性定义:为每个标记定义了相关属性
研究与开发资助
- 资助项目:国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究(编号:61305053)”和“事件本体模型与应用技术”(编号:60975033)
相关研究论文与学位论文
- 研究论文:涉及事件本体、事件要素抽取、时间短语识别等主题
- 博士论文:包括面向事件的知识处理、文本表示研究、事件本体及其应用等
- 硕士论文:如突发事件领域的事件时间要素抽取与推理研究
语料库特点
- 规模对比:相较于ACE和TimeBank语料库,CEC规模较小
- 标注全面性:对事件和事件要素的标注最为全面
搜集汇总
数据集介绍

构建方式
中文突发事件语料库(CEC)由上海大学语义智能实验室构建,依据国务院颁布的《国家突发公共事件总体应急预案》分类体系,从互联网上收集了地震、火灾、交通事故、恐怖袭击和食物中毒五类突发事件的新闻报道。这些报道经过文本预处理、分析、事件标注及一致性检查等步骤,最终以XML格式保存,包含六个关键标记:Event、Denoter、Time、Location、Participant和Object,分别用于描述事件及其要素。
特点
CEC语料库的特点在于其全面的事件和事件要素标注,尽管规模相对较小,但相较于ACE和TimeBank语料库,其在事件描述的细致性和全面性上表现突出。每个标记均定义了相关属性,确保了数据的高质量和高可用性。
使用方法
使用CEC语料库时,研究者可以通过解析XML文件获取详细的事件描述及其相关要素。该语料库适用于事件抽取、事件本体构建、事件因果关系分析等研究领域。此外,相关研究成果和方法可参考上海大学公开发表的硕士博士论文及期刊会议论文。
背景与挑战
背景概述
中文突发事件语料库(Chinese Emergency Corpus,CEC)由上海大学语义智能实验室于2021年构建,旨在为突发事件的文本分析提供丰富的数据资源。该语料库依据国务院颁布的《国家突发公共事件总体应急预案》分类体系,涵盖地震、火灾、交通事故、恐怖袭击和食物中毒五类突发事件,共收集并标注了524篇新闻报道。CEC采用XML语言进行标注,包含Event、Denoter、Time、Location、Participant和Object六个核心数据结构,全面描述事件及其要素。该语料库的构建得到了国家自然科学基金项目的资助,相关研究成果已在多篇学术论文和学位论文中发表,对事件本体和文本事件要素抽取等领域产生了深远影响。
当前挑战
尽管CEC在事件和事件要素的标注上表现出色,但其规模相对较小,仅包含524篇标注文章,这限制了其在大型模型训练中的应用。此外,语料库的构建过程中面临多重挑战,包括从互联网上收集高质量的突发事件新闻报道、确保文本预处理和事件标注的一致性,以及定义和维护复杂的XML标注结构。这些挑战不仅影响了语料库的规模和质量,也对其在实际应用中的效能提出了考验。
常用场景
经典使用场景
中文突发事件语料库(CEC)在自然语言处理领域中,常用于事件抽取和事件要素识别的研究。通过该语料库,研究者可以训练和验证模型,以自动识别和分类新闻报道中的突发事件,提取事件的关键要素如时间、地点、参与者等。这种应用场景在事件驱动的信息检索、舆情分析和应急管理中具有重要意义。
解决学术问题
CEC数据集解决了中文环境下突发事件信息抽取的学术难题。通过提供标注全面的事件和事件要素数据,CEC促进了事件本体构建、事件因果关系抽取和时间短语识别等研究。这些研究不仅提升了中文信息处理的精度,还为跨语言事件信息抽取提供了宝贵的参考,推动了自然语言处理技术在应急管理领域的应用。
衍生相关工作
基于CEC数据集,研究者们开展了多项经典工作,如事件本体构建、事件因果关系抽取和时间短语识别。付剑锋等人的研究通过层叠条件随机场模型,实现了事件因果关系的有效抽取。朱莎莎等人则利用条件随机场模型,提高了中文时间短语的识别精度。这些工作不仅丰富了CEC的应用场景,也为后续研究提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成



