中文突发事件语料库 (CEC)

github2018-09-26 更新2024-05-31 收录

下载链接：

https://github.com/we1l1n/CEC-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。

The Chinese Emergency Event Corpus is constructed by the Semantic Intelligence Laboratory at Shanghai University. Based on the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council, the corpus collects news reports on five types of emergencies (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet as raw data. This raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEC contains a total of 332 articles.

创建时间：

2018-09-21

原始信息汇总

中文突发事件语料库（CEC）概述

数据集构建

构建机构：上海大学语义智能实验室
数据来源：互联网新闻报道
事件分类：地震、火灾、交通事故、恐怖袭击、食物中毒，共5类
文本数量：332篇

数据处理流程

文本预处理
文本分析
事件标注
一致性检查

标注格式与结构

标注语言：XML
主要数据结构：Event、Denoter、Time、Location、Participant、Object
属性定义：每个标记都有相关属性

研究论文与学位论文

研究论文：涉及事件本体、事件要素抽取、事件因果关系抽取等主题
学位论文：包括博士论文和硕士论文，主题涵盖事件知识处理、文本表示、事件本体构建等

数据集特点

规模：相对较小
标注全面性：对事件及事件要素的标注最为全面，与ACE和TimeBank语料库相比具有优势

搜集汇总

数据集介绍

构建方式

中文突发事件语料库（CEC）的构建，立足于国务院颁布的公共事件分类体系，通过从互联网上收集地震、火灾等五类突发事件的新闻报道作为原始语料，进而进行文本预处理与分析，标注事件及其要素，并采用XML格式存储，最终形成包含332篇文本的语料库。

特点

CEC语料库特色鲜明，其规模虽不及ACE和TimeBank语料库，但在事件及事件要素的标注上展现出全面性，涵盖了Event、Denoter、Time、Location、Participant和Object六大核心要素及其属性，为突发事件的研究提供了丰富而细致的语料资源。

使用方法

使用者可以通过直接访问上海大学语义智能实验室提供的CEC语料库来进行研究。此外，借助相关硕士博士论文及期刊会议论文中的详细描述，研究者能够更好地理解和应用该语料库，以推动突发事件文本的自动标注、事件要素抽取等研究方向的发展。

背景与挑战

背景概述

中文突发事件语料库（CEC）是由上海大学语义智能实验室构建的，旨在响应国务院颁布的《国家突发公共事件总体应急预案》分类体系。该语料库的构建始于对互联网上5类突发事件（地震、火灾、交通事故、恐怖袭击和食物中毒）新闻报道的收集，并经过精细的文本预处理、文本分析、事件标注及一致性检查等步骤，最终形成了包含332篇文本的语料库。CEC采用了XML语言进行标注，涵盖了事件及其要素的全面标注，为事件研究和语义理解提供了重要的资源。该语料库的研究与开发得到了国家自然科学基金项目的资助，并在学术界产生了广泛的影响力，其成果体现在一系列公开发表的硕士博士论文及期刊会议论文中。

当前挑战

尽管CEC语料库在事件标注的全面性上具有优势，但其规模相对较小，这限制了其在大规模文本处理任务中的应用。此外，构建过程中面临的挑战包括如何确保标注的一致性和准确性，以及如何处理突发事件的多样性和复杂性。在研究领域，如何利用CEC进行更深入的事件要素抽取、事件因果关系抽取以及事件本体构建等问题的研究，是该数据集面临的主要挑战。

常用场景

经典使用场景

在自然语言处理与信息提取领域，中文突发事件语料库（CEC）的典型应用场景是对突发事件文本进行事件要素的抽取与事件类型分类。通过对文本中事件指示词、时间、地点、参与者和对象等要素的标注，研究者能够有效地进行事件结构分析，为后续的事件推理和语义理解提供基础。

衍生相关工作

基于CEC语料库的研究成果丰富，衍生出了诸多相关工作，包括事件要素抽取方法、事件因果关系抽取、文本事件自动标注技术等。这些研究不仅推动了文本挖掘技术的发展，也为语义理解和知识图谱构建提供了重要的理论和技术支持。

数据集最近研究