Continual-Learning-Dataset

github2025-11-24 更新2025-11-25 收录

下载链接：

https://github.com/TengfeiLiu966/Continual-Learning-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含四个专为持续学习任务设计的数据集：exAAPD（来自arXiv的计算机科学领域结构化长文档数据集，含49326个文档和54个学科类别）、exLitCovid（来自LitCovid的冠状病毒研究文献数据集，含14831篇文章和8个研究主题）、exMeSH（扩展的医学论文数据集，含15966篇论文和11种顶级疾病类别）和exPFD（扩展的多领域文档数据集，含30236个样本和7个领域类别）。这些数据集旨在支持增量学习和终身学习实验，帮助研究人员开发能够随时间学习新任务而不会忘记先前任务的模型。

This repository hosts four datasets specifically designed for continual learning tasks: exAAPD, a structured long-form document dataset from the Computer Science domain on arXiv containing 49,326 documents and 54 subject categories; exLitCovid, a coronavirus research literature dataset sourced from LitCovid comprising 14,831 articles and 8 research topics; exMeSH, an extended medical paper dataset with 15,966 papers and 11 top-level disease categories; and exPFD, an extended multi-domain document dataset containing 30,236 samples and 7 domain categories. These datasets are developed to facilitate incremental and lifelong learning experiments, enabling researchers to build models that can acquire new tasks over time while preserving prior task knowledge.

创建时间：

2025-11-21

原始信息汇总

数据集概述

数据集简介

本仓库包含四个专为持续学习任务设计的数据集，旨在支持增量学习和终身学习实验，帮助研究人员开发能够随时间学习新任务而不会忘记先前学习任务的模型。

数据集详情

1. exAAPD

描述：从arXiv下载计算机科学领域的文章，为最大化样本多样性，2018年11月至2020年8月每月包含3000篇文章。预处理后包含49326个结构化长文档，分配至54个学科类别中的一个或多个，如cs.it、cs.cv、cs.cl。
格式：结构化文本（JSON）
下载链接：https://drive.google.com/drive/folders/1g9s_UiaTVC0GK80s56tiR-Tby-Jbi-wy?dmr=1&ec=wgc-drive-globalnav-goto

2. exLitCovid

描述：LitCovid是PubMed Central上用于追踪冠状病毒最新文献的精选中心。文章每日更新并按不同研究主题分类。收集14831篇文章，分类至以下8个主题中的一个或多个：预防、治疗、诊断、机制、病例报告、传播、预测和通用。
格式：结构化文本（JSON）
下载链接：https://drive.google.com/drive/folders/1fKFqXa0KgTo8NOsiUtipkgoZfgJ2_AK3?dmr=1&ec=wgc-drive-globalnav-goto

3. exMeSH

描述：将原始MeSH数据集扩展为结构化全文数据集exMeSH，包含15966篇学术医学论文，分配至MeSH词汇表中11个顶级疾病类别中的一个，如心血管疾病、糖尿病、消化系统疾病。
格式：结构化文本（JSON）
下载链接：https://drive.google.com/drive/folders/1rzsEPQA4nHhU6u16ewMh-Fedjxf1BaPO?dmr=1&ec=wgc-drive-globalnav-goto

4. exPFD

描述：通过添加文档全文和结构信息扩展PFD形成exPFD，包含24190个训练样本、3023个验证样本和3023个测试样本，分配至地理、政治、经济、商业、社会学、医学和心理学7个领域中的一个。不同类别样本数量不均，例如心理学占22.6%共6.9K文档，而商业仅占6.2%。
格式：结构化文本（JSON）
下载链接：https://drive.google.com/drive/folders/1V1ocybV6PnMRCduPEhUReqvDzd_8xzIE?dmr=1&ec=wgc-drive-globalnav-goto

使用说明

通过提供的Google Drive链接访问数据集，下载后可用于持续学习实验。

许可证

本项目采用MIT许可证，详见LICENSE文件。

联系方式

如有问题请联系：tfliu@bjut.edu.cn

搜集汇总

数据集介绍

构建方式

在持续学习研究领域，数据集的构建策略直接影响模型对新知识的适应能力。Continual-Learning-Dataset通过系统化扩展和结构化处理形成四个核心子集：exAAPD从arXiv平台采集2018至2020年间计算机科学论文，经预处理形成含54个学科分类的4.9万篇长文档；exLitCovid整合PubMed Central的冠状病毒文献，按8个研究主题标注1.4万篇文章；exMeSH基于医学主题词表构建，将1.6万篇医学论文映射至11种疾病类别；exPFD则通过扩充全文与结构信息，形成涵盖7个社会科学领域的3万篇标注文档。所有数据均采用JSON格式存储，确保语义信息的完整保留。

特点

该数据集在持续学习任务中展现出显著的专业特性。四个子集分别覆盖计算机科学、医学疫情、疾病分类与社会科学等多领域，其长文档结构与多标签标注机制有效模拟现实场景中的复杂知识演化。数据规模呈现差异化分布，如exPFD中心理学文献占比22.6%而商学仅6.2%，这种非均衡设计有助于验证模型在数据偏斜环境下的鲁棒性。时序维度上，exAAPD按月份采样的特性为研究知识动态演变提供支撑，exLitCovid的每日更新机制则体现了疫情研究的时效性需求。

使用方法

研究者可通过Google Drive链接直接获取数据集文件，其标准化JSON格式适配主流深度学习框架。在持续学习实验中，建议将各子集按领域特性划分为连续学习任务序列，例如按时间顺序组织exAAPD的月度数据，或按疾病类别渐进引入exMeSH样本。实验设计需特别注意类别不平衡问题，可通过动态采样策略优化模型表现。数据集支持的增量学习场景包括但不限于灾难性遗忘缓解、知识迁移验证等研究方向，使用者应依据MIT许可证条款规范使用数据资源。

背景与挑战

背景概述

持续学习数据集由北京工业大学研究团队于2020年前后构建，聚焦于解决人工智能领域中的灾难性遗忘问题。该数据集整合了exAAPD、exLitCovid、exMeSH和exPFD四个子集，涵盖计算机科学文献、医学研究论文与社会科学文本等多领域结构化数据。通过提供时序演进的文本分类任务，该资源为增量学习与终身学习算法研究奠定了实验基础，推动了动态环境下的模型适应性研究进展。

当前挑战

在领域问题层面，数据集需应对模型在新任务学习中保持历史知识稳定性的核心难题，涉及跨领域概念漂移与长尾类别分布等复杂场景。构建过程中面临多源数据异构整合的挑战，包括从arXiv、PubMed等平台提取非结构化文本的标准化处理，以及医学主题分类中专业术语的语义对齐问题，同时需平衡不同学科类别样本量的显著差异。

常用场景

经典使用场景

在持续学习领域，该数据集为模型在动态环境中逐步掌握新知识提供了关键支持。exAAPD和exPFD通过多类别文本数据模拟了现实世界的信息流，使研究者能够构建在连续任务序列中保持稳定性能的算法。这些数据集特别适用于验证模型在遇到新学科文献或跨领域内容时的适应能力，为评估灾难性遗忘问题提供了标准化测试平台。

衍生相关工作

该数据集催生了多项持续学习领域的创新研究。基于exAAPD开发的动态文本分类框架成功实现了跨学科知识的协同保持，相关成果发表于自然语言处理顶级会议。exPFD衍生的课程学习策略通过控制任务难度梯度显著缓解了灾难性遗忘，其方法已被拓展至多模态学习场景。exLitCovid支撑的疫情知识图谱演进研究则开创了突发公共卫生事件下的自适应学习范式。

数据集最近研究