five

中文突发事件语料库 (CEC)|突发事件数据集|语料库数据集

收藏
github2019-04-14 更新2024-05-31 收录
突发事件
语料库
下载链接:
https://github.com/wwewwt/CEC-Corpus
下载链接
链接失效反馈
资源简介:
中文突发事件语料库是由上海大学(语义智能实验室)所构建。根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

The Chinese Emergency Event Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. Following the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council, the corpus collects news reports on five types of emergency events (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet as raw data. This raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEC comprises a total of 332 articles.
创建时间:
2019-03-25
原始信息汇总

中文突发事件语料库(CEC)概述

数据集构建

  • 构建机构:上海大学语义智能实验室
  • 数据来源:互联网新闻报道
  • 事件分类:地震、火灾、交通事故、恐怖袭击、食物中毒
  • 文本数量:332篇

数据处理

  • 预处理步骤:文本预处理、文本分析、事件标注、一致性检查
  • 标注格式:XML
  • 主要标记:Event、Denoter、Time、Location、Participant、Object
  • 标记属性:每个标记都有相关属性定义

研究支持

  • 资助项目:国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究”和“事件本体模型与应用技术”

学术贡献

  • 研究论文:涉及事件本体、事件要素抽取、时间短语识别等多个方面
  • 学位论文:包括博士论文和硕士论文,主题围绕事件处理、文本表示、事件本体构建等

数据集特点

  • 规模:与ACE和TimeBank语料库相比规模较小
  • 标注全面性:对事件和事件要素的标注最为全面

参考文献

  • 研究论文和学位论文:提供了详细的参考文献列表,包括期刊、会议论文和学位论文,用于深入了解CEC的研究背景和方法。
AI搜集汇总
数据集介绍
main_image_url
构建方式
中文突发事件语料库(CEC)的构建,立足于国务院颁布的公共事件分类体系,从互联网上采集地震、火灾等五类突发事件的新闻报道作为原始语料。经过严格的文本预处理、文本分析、事件标注与一致性检查等流程,将标注结果以XML格式存储,形成了包含332篇文本的语料库。
特点
CEC语料库以XML语言为标注格式,采用六个核心标记(Event、Denoter、Time、Location、Participant和Object)来描述事件及其要素。该语料库在规模上虽不及ACE和TimeBank语料库,但在事件及事件要素的标注全面性上具有显著优势,为研究者提供了深入分析突发事件文本的有力工具。
使用方法
用户在使用CEC语料库时,可以通过XML结构化数据方便地提取事件相关要素。此外,借助上海大学语义智能实验室公开发表的硕士博士论文以及期刊会议论文,用户可以更好地理解语料库的构建背景和应用方法,从而有效地开展相关研究工作。
背景与挑战
背景概述
中文突发事件语料库(CEC)是由上海大学语义智能实验室构建的重要语料库资源,创建于近年来,旨在为突发公共事件的研究提供支持。该数据集依托于国务院的分类体系,精心收集并标注了地震、火灾等五类突发事件的新闻报道,总计包含332篇文本。CEC的构建不仅体现了上海大学在语义智能领域的研究深度,而且对事件和事件要素的标注全面,为相关领域的研究提供了坚实基础。其研究成果广泛应用于学术领域,对推动中文突发事件处理技术的发展起到了积极作用。
当前挑战
CEC在构建过程中面临的挑战主要包括:一是确保所收集的突发事件新闻报道的全面性与准确性,二是实现事件及其要素的高质量标注,三是XML标注格式的标准化和一致性检查。此外,尽管CEC在事件标注方面具有全面性,但与ACE和TimeBank等大型语料库相比,其规模相对较小,这限制了其在某些大规模研究中的应用。同时,如何将CEC的标注结果有效应用于实际的文本分析和事件推理中,也是当前研究者和开发者需要克服的一项重要挑战。
常用场景
经典使用场景
在自然语言处理与信息抽取领域,中文突发事件语料库(CEC)之经典使用场景,主要在于为研究者提供了一个标注完备、结构清晰的语料资源。其通过精细的事件及事件要素标注,支撑了对突发事件文本的深入分析,如事件分类、因果关系抽取等,进而推动构建自动化的事件本体模型,为理解与推理复杂事件提供基础。
解决学术问题
CEC语料库针对学术研究中对于事件要素标注的一致性、全面性需求,提供了标准化的解决方案。它解决了传统语料库在事件标注方面元素不全、标注不规范的问题,为事件抽取、语义角色标注、时间推理等研究领域提供了重要支持,极大地促进了相关学术问题的研究进展。
衍生相关工作
基于CEC语料库的研究衍生出了一系列经典工作,包括但不限于事件要素抽取方法研究、事件因果关系抽取、文本自动标注技术等。这些研究不仅加深了对中文突发事件文本的理解,也为相关领域的理论发展与技术应用提供了丰富的案例与参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录