开源连续学习长文档分类数据集

Name: 开源连续学习长文档分类数据集
Creator: 北京工业大学
License: 暂无描述

国家基础学科公共科学数据中心2026-02-21 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=69949087195d2627ec69a14d&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由exAAPD、exLitCovid、exMeSH和exPFD四个针对不同学术领域的子数据集整合而成，共包含约110,359篇高保真结构化长文档数据。其中，exAAPD涵盖49,326篇源自arXiv的计算机科学论文，涉及cs.cv、cs.it等54个学科类别，并具备明确的时间演进特性；exLitCovid包含14,831篇关于新冠病毒的PubMed Central论文，精细划分为预防、治疗、机制等8个核心研究专题；exMeSH包含15,966篇基于MeSH词表扩展的医学论文，涵盖心血管、糖尿病等11类顶级疾病；exPFD则包含30,236篇跨地理、政治、经济、心理等7个领域的学术文档，并具备自然的类别不均衡分布特征。全套数据集采用JSON格式存储，完整保留了文档的层级结构信息，能够支持连续学习设定下的跨领域知识迁移、长文本语义建模及新类发现研究。数据构建方案：该数据集基于Python程序化工具从arXiv、PubMed及相关公开学术数据库进行自动化采集，并通过分词、去噪及结构化解析等流程处理而成。

提供机构：

北京工业大学

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集整合了exAAPD、exLitCovid、exMeSH和exPFD四个子集，共包含约11万篇高保真结构化长文档，涵盖计算机科学、医学等多个学术领域。数据以JSON格式存储，支持连续学习场景下的跨领域知识迁移、长文本语义建模及新类发现研究。

以上内容由遇见数据集搜集并总结生成