中文突发事件语料库 (CEC)

github2018-04-01 更新2024-05-31 收录

下载链接：

https://github.com/lyx0723/CEC-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文突发事件语料库是由上海大学（语义智能实验室）所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系，从互联网上收集了5类（地震、火灾、交通事故、恐怖袭击和食物中毒）突发事件的新闻报道作为生语料，然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理，最后将标注结果保存到语料库中，CEC合计332篇。

The Chinese Emergency Event Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. Following the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council, the corpus collects news reports on five types of emergency events (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet as raw data. This raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEC comprises a total of 332 articles.

创建时间：

2018-04-01

原始信息汇总

中文突发事件语料库（CEC）概述

数据集构建

构建机构：上海大学语义智能实验室
数据来源：互联网上的新闻报道
事件分类：地震、火灾、交通事故、恐怖袭击、食物中毒，共5类
文本数量：332篇

数据处理流程

文本预处理
文本分析
事件标注
一致性检查

数据标注格式

标注语言：XML
主要数据结构：Event、Denoter、Time、Location、Participant、Object
属性定义：每个标记都有相关属性

数据集特点

规模：相比ACE和TimeBank语料库较小
标注全面性：对事件及事件要素的标注最为全面

研究支持

资助项目：国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究”和“事件本体模型与应用技术”

研究成果

论文：包括但不限于刘炜、王东等人的研究论文
学位论文：涉及博士论文和硕士论文，如付剑锋的“面向事件的知识处理研究”和张旭洁的“事件本体构建中几个关键问题的研究”

搜集汇总

数据集介绍

构建方式

中文突发事件语料库（CEC）的构建，始于上海大学语义智能实验室，依托国务院颁布的公共事件分类体系，选取互联网上的相关新闻报道作为原始语料。经过精细的文本预处理、文本分析、事件标注与一致性检查等多个环节，最终形成了包含332篇文本的语料库，并以XML格式存储，详尽标注了事件及其要素。

使用方法

使用CEC语料库时，研究者可通过XML语言格式方便地访问和利用标注信息。此外，相关的硕士博士论文以及期刊会议论文为语料库的应用提供了丰富的学术背景和实践案例，有助于推动突发事件领域的研究与知识发现。

背景与挑战

背景概述

中文突发事件语料库（CEC）是由上海大学语义智能实验室构建的重要数据资源，旨在响应国家对突发公共事件应急预案的需求。该语料库创建于21世纪初，依托于国家自然科学基金项目的支持，收集并处理了地震、火灾等五类突发事件的新闻报道，总计332篇。通过精细的文本预处理与分析，CEC对事件及其要素进行了全面标注，为事件推理和语义理解领域的研究提供了坚实的基础。CEC以其独特的标注体系和详尽的标注内容，在学术界产生了广泛影响，为相关研究和应用提供了宝贵的数据资源。

当前挑战

尽管CEC语料库在事件标注的全面性上具有优势，但其规模相对较小，这限制了其在大规模文本处理任务中的应用。此外，构建过程中遇到了如何确保标注一致性、提高标注效率以及平衡标注质量与成本等挑战。在研究领域，CEC所面临的挑战包括如何更精确地识别和抽取事件及其相关要素，以及如何将CEC的标注体系与其他语料库进行有效融合，以促进跨语料库的研究和模型训练。

常用场景

经典使用场景

中文突发事件语料库（CEC）作为自然语言处理领域的重要资源，其经典使用场景在于对中文文本中的突发事件进行事件抽取、要素识别和关系标注等任务。研究者通过该语料库，能够训练模型以识别新闻报道中的关键事件及其相关属性，为后续的事件推理、语义理解等研究提供基础数据支撑。

解决学术问题

CEC语料库的构建，有效解决了中文突发事件领域中事件要素标注不全面、标注一致性差等问题。其详尽的标注体系为学术研究提供了可靠的数据基础，有助于推动中文事件抽取、语义角色标注和时间关系解析等自然语言处理技术的发展，对突发事件的信息抽取和知识图谱构建具有重要意义。

实际应用

在实际应用中，CEC语料库可用于构建智能监控系统，实时监测网络新闻中的突发事件，为应急管理和决策提供快速准确的信息支持。此外，它还可应用于舆情分析、信息检索和智能问答系统，以提高处理突发事件相关信息的效率和准确性。

数据集最近研究