CEEC-Corpus

github2016-12-19 更新2024-05-31 收录

下载链接：

https://github.com/daselab/CEEC-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文环境突发事件语料库是由上海大学语义智能实验室构建的，包含6类环境污染类突发事件的新闻报道，共计100篇。该语料库采用XML语言作为标注格式，详细标注了事件及其要素，如指示词、时间、地点、参与者和对象等。

The Chinese Environmental Emergency Corpus is constructed by the Semantic Intelligence Laboratory of Shanghai University. It includes news reports on six types of environmental pollution emergencies, totaling 100 articles. The corpus uses XML (Extensible Markup Language) as the annotation format, meticulously annotating events and their elements such as indicators, time, location, participants, and objects.

创建时间：

2015-09-29

原始信息汇总

中文环境突发事件语料库（CEEC）概述

数据集构建

构建机构：上海大学（语义智能实验室）
数据来源：互联网上的新闻报道
分类体系：根据《国家突发公共事件总体应急预案》分为6类（海洋污染、空气污染、社会影响、水污染、土壤污染、噪音污染）
处理流程：文本预处理、文本分析、事件标注、一致性检查
数据规模：100篇

标注工作

主要负责人：刘炜、王旭、丁宁等
格式化与修正工作：王旭

数据结构

标注格式：XML
主要标记：Event、Denoter、Time、Location、Participant、Object
标记用途：描述事件及其指示词和要素
属性定义：每个标记都有相关属性

研究资助

资助项目：国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究（编号：61305053）”和“事件本体模型与应用技术”（编号：60975033）

相关文献

参考文献：上海大学公开发表的相关硕士博士论文及期刊会议论文
示例文献：
- Jianfeng Fu的“Research on Event-Oriented Knowledge Processing”
- Xujie Zhang的“A Study of Several Key Problems in Construction of Event Ontology”

搜集汇总

数据集介绍

构建方式

CEEC-Corpus，即中文环境突发事件语料库，由上海大学语义智能实验室构建。该数据集基于国务院颁布的《国家突发公共事件总体应急预案》分类体系，从互联网上选取了6类环境污染类突发事件的新闻报道作为原始语料。经过文本预处理、文本分析、事件标注与一致性检查等步骤，最终形成包含100篇标注后新闻文本的语料库。在构建过程中，标注工作主要由刘炜、王旭、丁宁等人完成，其中标注结果的格式化、编码转换及错误修正由王旭负责。

特点

CEEC-Corpus具有几个显著特点。首先，它采用了XML语言进行标注，包含了六个核心数据结构：Event、Denoter、Time、Location、Participant和Object，用以全面描述事件及其相关要素。其次，每个标记都定义了相关属性，使得事件和事件要素的标注细致而全面。尽管CEEC的规模相较于ACE和TimeBank语料库较小，但其对事件标注的全面性弥补了这一不足。

使用方法

使用CEEC-Corpus时，研究者可以依据XML格式化的标注结果，对事件和事件要素进行深入分析。用户可通过查阅上海大学公开发表的硕士、博士论文以及期刊会议论文来获取语料库的具体内容和使用细节。此外，该语料库的研究与开发得到了国家自然科学基金项目的资助，进一步保证了数据集的质量与可靠性。

背景与挑战

背景概述

中文环境突发事件语料库（CEEC-Corpus）是由上海大学语义智能实验室构建，旨在响应国务院颁布的《国家突发公共事件总体应急预案》，针对环境污染类突发事件进行深入研究。该语料库始建于2013年，由刘炜、王旭、丁宁等研究人员完成，包含6类环境污染类突发事件新闻报道，共计100篇。CEEC-Corpus以XML语言为标注格式，对事件及事件要素进行了全面标注，成为事件研究领域的重要资源，对事件推理、本体模型与应用技术等相关研究产生了深远影响。

当前挑战

尽管CEEC-Corpus在事件标注的全面性上具有优势，但相较于ACE和TimeBank等大型语料库，其规模偏小，限制了其在广泛领域内的应用。此外，构建过程中面临着标注一致性、数据质量控制和标注体系构建等挑战，这些问题的解决对于提升语料库的实用性和可靠性至关重要。

常用场景

经典使用场景

在自然语言处理与信息抽取领域，CEEC-Corpus作为中文环境突发事件语料库，其经典的使用场景在于为事件抽取、事件触发词识别以及事件元素识别等任务提供基准数据。研究者通过该语料库，可以训练和评估模型的性能，进而推动相关技术在突发事件管理、新闻报道自动化处理等领域的应用。

解决学术问题

CEEC-Corpus针对学术研究中事件标注不全面、标注标准不统一的问题，提供了包含事件及其元素（如指示词、时间、地点、参与者和对象）的详尽标注。这对于理解事件结构、构建事件本体模型，以及提升事件推理和语义理解的研究具有重大价值，为相关领域的学术问题解决提供了重要支持。

衍生相关工作

CEEC-Corpus的构建促进了事件触发词识别、事件元素抽取等后续相关研究的开展。其标注的全面性和准确性，为后续研究如事件因果关系建模、事件影响范围评估等提供了基础数据，衍生出了一系列深入探索事件语义的研究工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集