开源连续学习长文档分类数据集
收藏国家基础学科公共科学数据中心2026-02-21 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69949087195d2627ec69a14d&type=1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由exAAPD、exLitCovid、exMeSH和exPFD四个针对不同学术领域的子数据集整合而成,共包含约110,359篇高保真结构化长文档数据。其中,exAAPD涵盖49,326篇源自arXiv的计算机科学论文,涉及cs.cv、cs.it等54个学科类别,并具备明确的时间演进特性;exLitCovid包含14,831篇关于新冠病毒的PubMed Central论文,精细划分为预防、治疗、机制等8个核心研究专题;exMeSH包含15,966篇基于MeSH词表扩展的医学论文,涵盖心血管、糖尿病等11类顶级疾病;exPFD则包含30,236篇跨地理、政治、经济、心理等7个领域的学术文档,并具备自然的类别不均衡分布特征。全套数据集采用JSON格式存储,完整保留了文档的层级结构信息,能够支持连续学习设定下的跨领域知识迁移、长文本语义建模及新类发现研究。数据构建方案:该数据集基于Python程序化工具从arXiv、PubMed及相关公开学术数据库进行自动化采集,并通过分词、去噪及结构化解析等流程处理而成。
提供机构:
北京工业大学
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集整合了exAAPD、exLitCovid、exMeSH和exPFD四个子集,共包含约11万篇高保真结构化长文档,涵盖计算机科学、医学等多个学术领域。数据以JSON格式存储,支持连续学习场景下的跨领域知识迁移、长文本语义建模及新类发现研究。
以上内容由遇见数据集搜集并总结生成



