five

中文突发事件语料库 (CEC)

收藏
github2019-04-14 更新2024-05-31 收录
下载链接:
https://github.com/wwewwt/CEC-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

The Chinese Emergency Event Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. Following the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council, the corpus collects news reports on five types of emergency events (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet as raw data. This raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEC comprises a total of 332 articles.
创建时间:
2019-03-25
原始信息汇总

中文突发事件语料库(CEC)概述

数据集构建

  • 构建机构:上海大学语义智能实验室
  • 数据来源:互联网新闻报道
  • 事件分类:地震、火灾、交通事故、恐怖袭击、食物中毒
  • 文本数量:332篇

数据处理

  • 预处理步骤:文本预处理、文本分析、事件标注、一致性检查
  • 标注格式:XML
  • 主要标记:Event、Denoter、Time、Location、Participant、Object
  • 标记属性:每个标记都有相关属性定义

研究支持

  • 资助项目:国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究”和“事件本体模型与应用技术”

学术贡献

  • 研究论文:涉及事件本体、事件要素抽取、时间短语识别等多个方面
  • 学位论文:包括博士论文和硕士论文,主题围绕事件处理、文本表示、事件本体构建等

数据集特点

  • 规模:与ACE和TimeBank语料库相比规模较小
  • 标注全面性:对事件和事件要素的标注最为全面

参考文献

  • 研究论文和学位论文:提供了详细的参考文献列表,包括期刊、会议论文和学位论文,用于深入了解CEC的研究背景和方法。
搜集汇总
数据集介绍
main_image_url
构建方式
中文突发事件语料库(CEC)的构建,立足于国务院颁布的公共事件分类体系,从互联网上采集地震、火灾等五类突发事件的新闻报道作为原始语料。经过严格的文本预处理、文本分析、事件标注与一致性检查等流程,将标注结果以XML格式存储,形成了包含332篇文本的语料库。
特点
CEC语料库以XML语言为标注格式,采用六个核心标记(Event、Denoter、Time、Location、Participant和Object)来描述事件及其要素。该语料库在规模上虽不及ACE和TimeBank语料库,但在事件及事件要素的标注全面性上具有显著优势,为研究者提供了深入分析突发事件文本的有力工具。
使用方法
用户在使用CEC语料库时,可以通过XML结构化数据方便地提取事件相关要素。此外,借助上海大学语义智能实验室公开发表的硕士博士论文以及期刊会议论文,用户可以更好地理解语料库的构建背景和应用方法,从而有效地开展相关研究工作。
背景与挑战
背景概述
中文突发事件语料库(CEC)是由上海大学语义智能实验室构建的重要语料库资源,创建于近年来,旨在为突发公共事件的研究提供支持。该数据集依托于国务院的分类体系,精心收集并标注了地震、火灾等五类突发事件的新闻报道,总计包含332篇文本。CEC的构建不仅体现了上海大学在语义智能领域的研究深度,而且对事件和事件要素的标注全面,为相关领域的研究提供了坚实基础。其研究成果广泛应用于学术领域,对推动中文突发事件处理技术的发展起到了积极作用。
当前挑战
CEC在构建过程中面临的挑战主要包括:一是确保所收集的突发事件新闻报道的全面性与准确性,二是实现事件及其要素的高质量标注,三是XML标注格式的标准化和一致性检查。此外,尽管CEC在事件标注方面具有全面性,但与ACE和TimeBank等大型语料库相比,其规模相对较小,这限制了其在某些大规模研究中的应用。同时,如何将CEC的标注结果有效应用于实际的文本分析和事件推理中,也是当前研究者和开发者需要克服的一项重要挑战。
常用场景
经典使用场景
在自然语言处理与信息抽取领域,中文突发事件语料库(CEC)之经典使用场景,主要在于为研究者提供了一个标注完备、结构清晰的语料资源。其通过精细的事件及事件要素标注,支撑了对突发事件文本的深入分析,如事件分类、因果关系抽取等,进而推动构建自动化的事件本体模型,为理解与推理复杂事件提供基础。
解决学术问题
CEC语料库针对学术研究中对于事件要素标注的一致性、全面性需求,提供了标准化的解决方案。它解决了传统语料库在事件标注方面元素不全、标注不规范的问题,为事件抽取、语义角色标注、时间推理等研究领域提供了重要支持,极大地促进了相关学术问题的研究进展。
衍生相关工作
基于CEC语料库的研究衍生出了一系列经典工作,包括但不限于事件要素抽取方法研究、事件因果关系抽取、文本自动标注技术等。这些研究不仅加深了对中文突发事件文本的理解,也为相关领域的理论发展与技术应用提供了丰富的案例与参考。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务