five

CEEC-Corpus

收藏
github2024-01-31 更新2024-05-31 收录
下载链接:
https://github.com/shijiebei2009/CEEC-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
中文环境突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了6类环境污染类突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEEC合计100篇。

The Chinese Environmental Emergency Corpus (CEEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. Based on the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council, the corpus collects news reports on six types of environmental pollution emergencies from the internet as raw data. The raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEEC comprises a total of 100 articles.
创建时间:
2015-09-19
原始信息汇总

中文环境突发事件语料库(CEEC)概述

数据集构建

  • 机构:上海大学语义智能实验室
  • 数据来源:互联网上的新闻报道
  • 分类体系:根据《国家突发公共事件总体应急预案》分为6类(海洋污染、空气污染、社会影响、水污染、土壤污染、噪音污染)
  • 处理流程:文本预处理、文本分析、事件标注、一致性检查
  • 规模:100篇文本

标注工作

  • 负责人:刘炜、王旭、丁宁、张雨嘉
  • 格式化与修正:王旭

数据结构与标注

  • 标注格式:XML
  • 主要标记:Event、Denoter、Time、Location、Participant、Object
  • 标记用途:描述事件及其要素
  • 属性定义:每个标记都有相关属性

研究资助

  • 项目:国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究(编号:61305053)”和“事件本体模型与应用技术”(编号:60975033)

学术参考

  • 相关论文:可参考上海大学公开发表的硕士博士论文及期刊会议论文
  • 示例论文:《事件导向的知识处理》(Jianfeng Fu著)、《事件本体构建中的若干关键问题研究》(Xujie Zhang著)
搜集汇总
数据集介绍
main_image_url
构建方式
中文环境突发事件语料库(CEEC)由上海大学语义智能实验室构建,依据《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了六类环境污染突发事件的新闻报道作为原始语料。经过文本预处理、文本分析、事件标注及一致性检查等步骤,最终将标注结果保存至语料库中,共计100篇。标注工作由多位研究人员共同完成,标注结果采用XML格式,包含事件及其要素的详细描述。
特点
CEEC语料库以XML格式存储,包含六个核心数据结构:Event、Denoter、Time、Location、Participant和Object,分别用于描述事件及其相关要素。与ACE和TimeBank语料库相比,CEEC虽然规模较小,但对事件及其要素的标注更为全面。语料库涵盖了海洋污染、空气污染、水污染、土壤污染、噪音污染及社会影响六类环境突发事件,为相关研究提供了丰富的标注数据。
使用方法
CEEC语料库适用于环境突发事件的研究与分析,用户可通过解析XML格式的标注数据,提取事件及其要素的详细信息。语料库中的标注结构清晰,便于进行事件推理、知识处理及本体构建等研究。研究人员可参考上海大学公开发表的相关硕士、博士论文及期刊会议论文,进一步了解语料库的应用场景与技术细节。
背景与挑战
背景概述
中文环境突发事件语料库(CEEC)由上海大学语义智能实验室构建,旨在为环境突发事件的研究提供高质量的标注数据。该语料库依据《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了六类环境污染类突发事件的新闻报道,经过文本预处理、分析、事件标注及一致性检查等步骤,最终形成了包含100篇文本的语料库。CEEC采用了XML格式进行标注,涵盖了事件(Event)、指示词(Denoter)、时间(Time)、地点(Location)、参与者(Participant)和对象(Object)等核心数据结构,并对每个标记定义了相关属性。尽管CEEC的规模相对较小,但其对事件及事件要素的标注全面性在同类语料库中表现突出。该语料库的构建得到了国家自然科学基金项目的资助,为环境突发事件的知识处理与推理研究提供了重要支持。
当前挑战
CEEC语料库在构建与应用过程中面临多重挑战。首先,环境突发事件的新闻报道具有多样性和复杂性,如何从海量互联网数据中筛选出高质量且具有代表性的语料,是构建过程中的首要难题。其次,事件标注的全面性与一致性要求极高,标注人员需具备深厚的领域知识,以确保标注结果的准确性与可靠性。此外,CEEC的规模相对较小,如何在有限数据的基础上提升模型的泛化能力,是其在应用中的主要挑战。最后,尽管CEEC在事件要素标注上较为全面,但其与ACE、TimeBank等大规模语料库相比,仍需进一步扩展数据规模与标注深度,以满足更广泛的研究需求。
常用场景
经典使用场景
CEEC-Corpus在环境科学和自然语言处理领域中被广泛用于研究环境突发事件的语言表达和事件结构。研究者通过分析语料库中的标注数据,深入探讨了环境污染事件的描述模式及其语言特征,为环境事件的自动识别和分类提供了基础数据支持。
实际应用
在实际应用中,CEEC-Corpus被用于开发环境监测和应急响应系统。通过分析语料库中的事件数据,系统能够自动识别和分类环境突发事件,帮助政府和环保机构快速响应和处理环境危机,提升环境管理的效率和准确性。
衍生相关工作
CEEC-Corpus的发布催生了一系列相关研究,如基于事件本体的知识处理技术和环境事件的语义分析模型。这些研究不仅扩展了语料库的应用范围,还为环境事件的自动化和智能化处理提供了理论和方法支持,推动了环境科学与自然语言处理的交叉研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作