中文突发事件语料库 (CEC)
收藏github2019-01-18 更新2024-05-31 收录
下载链接:
https://github.com/Samurais/CEC-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
The Chinese Emergency Event Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. Following the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council, the corpus collects news reports on five types of emergencies (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet as raw data. This raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEC comprises a total of 332 articles.
创建时间:
2018-05-04
原始信息汇总
中文突发事件语料库(CEC)概述
数据集构建
- 构建机构:上海大学(语义智能实验室)
- 数据来源:互联网上的新闻报道
- 事件分类:地震、火灾、交通事故、恐怖袭击、食物中毒,共5类
- 数据量:总计332篇文本
数据处理
- 处理步骤:文本预处理、文本分析、事件标注、一致性检查
- 标注格式:采用XML语言
- 主要标记:Event、Denoter、Time、Location、Participant、Object
- 标记属性:每个标记都有相关属性定义
数据集特点
- 规模:相比ACE和TimeBank语料库,规模较小
- 标注全面性:对事件和事件要素的标注最为全面
研究支持
- 资助项目:国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究(编号:61305053)”和“事件本体模型与应用技术”(编号:60975033)
相关研究
- 研究论文:涉及事件本体、事件要素抽取、因果关系抽取等多个方面
- 学位论文:包括博士论文和硕士论文,主题涵盖事件知识处理、文本表示、事件本体构建等
贡献者
- 感谢对象:上海大学语义智能实验室的硕士、博士研究生
搜集汇总
数据集介绍

构建方式
中文突发事件语料库(CEC)的构建,依托国务院颁布的公共事件分类体系,从互联网上搜集了五类突发事件新闻报道作为原始语料。经过文本预处理、文本分析、事件标注及一致性检查等步骤,最终将标注结果以XML格式存储,形成了包含332篇文本的语料库。
使用方法
使用者可参考上海大学公开发表的硕士、博士论文及期刊会议论文,以深入了解CEC的使用方法。该语料库适用于事件抽取、事件要素识别、事件分类等自然语言处理任务,用户需依据具体研究需求,对XML格式的标注数据进行解析和应用。
背景与挑战
背景概述
中文突发事件语料库(CEC)是由上海大学语义智能实验室构建,旨在响应国务院对突发公共事件的分类体系,通过互联网搜集相关新闻报道,并经过严谨的文本预处理与分析流程,形成了包含地震、火灾等五类突发事件的语料库。CEC以其全面的事件及事件要素标注,在自然语言处理和事件语义理解领域产生了重要影响,为相关研究提供了珍贵的资源。该语料库的构建得到了国家自然科学基金项目的资助,并在学术界产生了系列研究成果。
当前挑战
尽管CEC语料库在事件标注方面具有全面性,但其规模相对较小,这限制了其在更大范围内的应用。此外,由于突发事件领域的多样性和复杂性,语料库的构建过程中面临着如何确保标注一致性和准确性的挑战。同时,事件标注的全面性也带来了标注体系和标注规则的复杂性,这为语料库的使用和维护带来了额外的挑战。
常用场景
经典使用场景
在自然语言处理与信息抽取领域,中文突发事件语料库(CEC)的经典使用场景主要在于为事件检测、事件元素抽取、事件分类等任务提供训练与测试的基础数据。该语料库通过详尽的标注,为研究人员提供了一种全面的资源,以便于构建和评估相关算法模型的性能。
解决学术问题
CEC语料库解决了突发事件文本处理中的多个学术研究问题,包括事件边界识别、事件元素识别与分类等。其全面的事件标注支持了对事件深层语义的理解,为构建事件本体、进行事件推理以及语义搜索提供了重要基础,对信息检索、知识图谱构建等领域产生了深远影响。
实际应用
在实际应用中,CEC语料库可用于构建智能监控系统,实时监测互联网上的突发事件信息,为应急管理部门提供决策支持。此外,它在新闻推荐、舆情分析、智能问答等领域同样具有广泛的应用价值。
数据集最近研究
最新研究方向
中文突发事件语料库(CEC)作为自然语言处理领域的重要资源,近期研究方向主要聚焦于事件本体的构建与知识处理。研究者们通过CEC探索事件标注、事件要素抽取、事件分类以及事件因果关系抽取等关键技术,为突发事件的信息抽取、语义理解与智能处理提供了有力支持。CEC的全面标注特性使其在构建事件本体模型、语义搜索以及应急管理等热点研究领域发挥着重要作用,推动了自然语言处理技术在应急管理与智能决策支持系统中的应用。
以上内容由遇见数据集搜集并总结生成



