five

中文突发事件语料库|突发事件数据集|文本分析数据集

收藏
github2020-11-27 更新2024-05-31 收录
突发事件
文本分析
下载链接:
https://github.com/open-nlp/CEC-Corpus
下载链接
链接失效反馈
资源简介:
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

The Chinese Emergency Event Corpus (CEC) was constructed by the Semantic Intelligence Laboratory at Shanghai University. It collects news reports on five types of emergency events (earthquakes, fires, traffic accidents, terrorist attacks, and food poisoning) from the internet, based on the classification system outlined in the 'National Emergency Response Plan for Public Emergencies' issued by the State Council. The raw data undergoes text preprocessing, text analysis, event annotation, and consistency checking before the annotated results are stored in the corpus. The CEC comprises a total of 332 articles.
创建时间:
2019-04-10
原始信息汇总

中文突发事件语料库(CEC)概述

数据集构建

  • 构建机构:上海大学语义智能实验室
  • 数据来源:互联网新闻报道
  • 事件分类:地震、火灾、交通事故、恐怖袭击、食物中毒
  • 文本数量:332篇

数据处理

  • 预处理步骤:文本预处理、文本分析、事件标注、一致性检查
  • 标注格式:XML
  • 主要标记:Event、Denoter、Time、Location、Participant、Object
  • 标记用途
    • Event:描述事件
    • Denoter、Time、Location、Participant、Object:描述事件的指示词和要素

研究与资助

  • 资助项目:国家自然科学基金项目“基于描述逻辑的事件推理关键问题研究”和“事件本体模型与应用技术”

研究成果

  • 研究论文:涉及事件本体、事件要素抽取、时间短语识别等多个方面
  • 学位论文:包括博士论文和硕士论文,主题涵盖事件知识处理、文本表示、事件本体构建等

数据集特点

  • 规模:相对于ACE和TimeBank语料库较小
  • 标注全面性:对事件和事件要素的标注最为全面
AI搜集汇总
数据集介绍
main_image_url
构建方式
中文突发事件语料库(CEC)由上海大学语义智能实验室构建,依据《国家突发公共事件总体应急预案》的分类体系,从互联网收集了五类突发事件的新闻报道作为原始语料。经过文本预处理、分析、事件标注及一致性检查等步骤,最终形成包含332篇文本的语料库。标注采用XML格式,涵盖事件及其要素的详细描述。
特点
CEC语料库以XML格式存储,包含六个核心数据结构:Event、Denoter、Time、Location、Participant和Object,分别用于描述事件及其相关要素。尽管规模较ACE和TimeBank语料库小,但其对事件及要素的标注更为全面,尤其适用于突发事件领域的文本分析与研究。
使用方法
CEC语料库适用于突发事件领域的文本分析与事件推理研究。用户可通过解析XML文件获取标注信息,结合事件本体模型进行事件要素抽取、因果关系分析等任务。相关研究可参考上海大学公开发表的硕士、博士论文及期刊会议论文,进一步探索其在自然语言处理中的应用。
背景与挑战
背景概述
中文突发事件语料库(CEC)由上海大学语义智能实验室构建,旨在支持中文文本中突发事件的分析与研究。该语料库依据《国家突发公共事件总体应急预案》的分类体系,收集并标注了五类突发事件的新闻报道,包括地震、火灾、交通事故、恐怖袭击和食物中毒。CEC采用XML格式进行标注,涵盖了事件、指示词、时间、地点、参与者和对象等关键数据结构。自创建以来,CEC在中文信息处理领域,特别是在事件抽取和本体构建方面,发挥了重要作用,并为相关研究提供了宝贵的数据资源。
当前挑战
中文突发事件语料库在构建与应用过程中面临多重挑战。首先,语料库的规模相对较小,仅包含332篇文本,限制了其在深度学习模型训练中的应用潜力。其次,尽管标注体系全面,但中文语言的复杂性和多样性使得事件要素的准确标注成为一项艰巨任务,尤其是在时间、地点等要素的识别上。此外,突发事件的动态性和多样性要求语料库不断更新以适应新的研究需求,这对数据维护和扩展提出了更高要求。最后,与ACE和TimeBank等国际知名语料库相比,CEC的国际影响力仍需进一步提升,以促进跨语言和跨领域的研究合作。
常用场景
经典使用场景
中文突发事件语料库(CEC)在自然语言处理领域中被广泛用于事件抽取和事件要素识别的研究。该数据集通过提供详细的事件标注,包括时间、地点、参与者等关键信息,为研究者提供了一个标准化的平台,用于开发和测试事件相关的算法和模型。特别是在中文文本处理中,CEC的全面标注为理解复杂事件结构提供了重要支持。
实际应用
在实际应用中,CEC被用于开发智能监控系统和应急响应系统。例如,通过分析突发事件相关的新闻报道,系统可以自动识别事件类型、发生时间和地点,从而为政府和应急机构提供实时信息支持。此外,CEC还被用于社交媒体分析,帮助识别和跟踪突发事件的发展趋势。
衍生相关工作
CEC的发布催生了一系列相关研究,特别是在事件抽取和事件本体构建领域。例如,基于CEC的研究工作提出了多种事件要素识别算法,如基于条件随机场和最大熵模型的方法。此外,CEC还为事件因果关系抽取和时间短语识别等任务提供了数据支持,推动了中文事件处理技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录