疫情文本标注数据集
收藏国家基础学科公共科学数据中心2026-03-21 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69bd6f16bb16e02c49cd1d42&type=1
下载链接
链接失效反馈官方服务:
资源简介:
为支撑重大疫情态势分析与智能感知模型的训练与评测,本数据集采集多权威渠道的疫情相关新闻文本,经标准化意图标注处理及标准化实体关系标注处理构建而成。数据时间范围覆盖2020-2024年,无明确空间地域限制,覆盖全球范围内重大疫情相关的公开网络信息。数据采集源包括主流新闻媒体、政府疫情通报网站及公共卫生机构官网等权威渠道,依托高性能计算服务器与网络爬虫系统,采用定向爬虫抓取+自动模型初标+人工复核的方法,通过关键词过滤、主题聚类及数据清洗等质控措施保障数据质量。数据集主要包含新闻或公告原文、发布标题及实体关系标签与疫情意图标签等数据,格式规范、标注精准,可直接用于自然语言处理模型训练、知识图谱构建、疫情态势分析等研究,具有重要的科研与应用价值。
提供机构:
中国科学院自动化研究所



