HRCSData
收藏Hugging Face2026-02-23 更新2026-02-24 收录
下载链接:
https://huggingface.co/datasets/NIHRDataInsights/HRCSData
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于HRCS 2014、2018和2022年度的直接资助项目数据,专注于医学和生物学领域的文本分类任务。数据集经过严格的质量控制,仅包含人工编码的摘要文本,并移除了少于75个字符的摘要记录以确保模型有足够的学习材料。数据划分方面,测试集专门使用2022年的数据以提供现代性能基准。为防止过拟合,实施了基于字符级TF-IDF向量(3-5字元n-gram)和余弦相似度阈值≥0.85的鲁棒去重流程,包括相似性分析、连通分量图聚类和文件顺序优先保留机制。特别强调训练集与测试集的隔离性,通过联合TF-IDF向量空间拟合和跨集相似性比对(≥0.85阈值)来防止数据泄漏,测试集本身仅采用精确标题匹配去重。需注意短小通用标题(如'Studentship')可能因相似度阈值在训练集中被去重。
创建时间:
2026-02-20
搜集汇总
数据集介绍
构建方式
在医学与生物学研究资助领域,HRCSData数据集通过整合HRCS 2014、2018及2022年度的直接资助记录构建而成。为确保数据质量,仅纳入人工编码的摘要,并在预处理阶段移除了字符数少于75的条目,以保障模型能够从充分文本中学习。训练集与测试集的划分采用时间隔离策略,测试集专门使用2022年数据,旨在提供现代化的性能基准。此外,通过基于字符级TF-IDF向量和余弦相似度阈值的去重流程,有效避免了训练数据中的近重复项,增强了模型的泛化能力。
特点
该数据集的核心特点在于其严谨的数据质量控制与去重机制。所有摘要均经过人工编码,确保了标注的准确性与一致性;通过设置最小字符长度阈值,排除了信息量不足的样本,为文本分类任务提供了可靠基础。在数据划分上,测试集完全由最新年度数据构成,能够真实反映模型在当代场景下的表现。去重过程采用基于图的连接组件算法,结合严格的相似度阈值,显著降低了训练数据冗余,同时通过跨集相似性比较防止了数据泄露,维护了评估的公正性。
使用方法
使用HRCSData数据集时,研究者可直接将其应用于医学文本分类任务,如资助项目领域识别或主题分析。数据集已预先划分为训练集和测试集,用户无需额外处理即可投入模型训练与评估。需要注意的是,由于去重过程中可能移除了部分简短通用标题,在针对特定短文本场景的应用中需谨慎评估其影响。为确保实验的严谨性,建议遵循数据集提供的划分方式,避免重新拆分导致的数据泄露风险,并利用测试集进行最终性能验证,以获取真实可靠的模型表现指标。
背景与挑战
背景概述
HRCSData数据集聚焦于医学与生物学领域的文本分类任务,其构建源于对健康研究分类系统(HRCS)资助项目摘要的深度分析。该数据集由研究团队基于HRCS在2014年、2018年及2022年的直接资助数据创建,核心目标在于通过自然语言处理技术,实现对科研项目摘要的精准分类,从而辅助科研管理与政策制定。其设计强调了数据质量与时效性,仅纳入人工编码的摘要,并采用2022年数据作为测试集,以提供现代性能基准,对推动医学信息学与科研评估的智能化发展具有显著影响力。
当前挑战
该数据集旨在解决医学文本分类中常见的数据稀疏与语义复杂性挑战,尤其针对短文本摘要的分类任务,要求模型从有限字符中提取有效特征。在构建过程中,研究团队面临多重挑战:为确保模型泛化能力,需实施严格的去重流程,采用字符级TF-IDF向量与余弦相似度阈值识别近重复标题,并通过图聚类算法保留代表性样本;同时,为防止训练与测试集之间的数据泄露,需在共享特征空间中进行交叉比较,移除与测试集高度相似的训练记录,但此过程可能导致部分通用短标题被过度去重,影响数据完整性。
常用场景
经典使用场景
在生物医学研究资助领域,HRCSData数据集为文本分类任务提供了高质量的标注语料。该数据集通过整合HRCS 2014、2018和2022年的人工编码摘要,构建了一个专门用于医疗健康研究分类的基准。其经典使用场景在于训练和评估机器学习模型,特别是针对研究摘要的自动分类,以识别资助项目所属的医学领域或研究主题。通过严格的去重和防泄漏处理,该数据集确保了模型评估的公正性,成为该领域方法验证的重要工具。
衍生相关工作
围绕HRCSData数据集,已衍生出一系列经典的学术研究工作。这些工作主要集中在改进医疗文本分类模型,例如探索更先进的深度学习架构或迁移学习策略,以提升在HRCSData上的分类性能。同时,该数据集也常被用作基准,用于比较不同去重算法或防数据泄漏方法的效果。相关研究进一步推动了生物医学自然语言处理领域在数据质量控制和模型泛化能力方面的理论进展。
数据集最近研究
最新研究方向
在生物医学研究资助领域,HRCSData作为一项专注于文本分类任务的数据集,其前沿研究正紧密围绕数据质量优化与模型泛化能力提升展开。通过整合2014年至2022年的人类编码摘要,并采用严格的长度筛选与去重机制,该数据集为机器学习模型提供了高质量的训练基础。当前热点聚焦于防止数据泄露与过拟合问题,研究通过TF-IDF向量化与余弦相似度阈值控制,构建了稳健的跨年度训练-测试分割策略,确保评估结果的真实性与可靠性。这一方向不仅推动了医学文本分类技术在资助分析中的应用,也为处理短文本、通用标题的挑战提供了方法论参考,对促进科研资源分配的智能化决策具有重要影响。
以上内容由遇见数据集搜集并总结生成



