litscan-abstracts

Hugging Face2025-10-27 更新2025-10-28 收录

非编码RNA研究

文献分析

数据链接：

https://huggingface.co/datasets/RNAcentral/litscan-abstracts 数据链接链接失效反馈

官方服务：

资源简介：

RNAcentral Litscan ncRNA相关摘要数据集包含了已经被标记为与ncRNA相关或不相关的文章摘要。相关文章被标记为1，不相关文章被标记为0。数据集由TarBase、Rfam、GO注释、手动注释的ncRNA相关文章以及非ncRNA相关文章组成。

创建时间：

2025-10-20

原始信息汇总

RNAcentral Litscan ncRNA Related Abstracts 数据集概述

数据集基本信息

许可证：CC-BY-2.0
任务类别：文本分类
语言：英语
标签：生物学
数据集名称：RNAcentral Litscan ncRNA Related Abstracts
数据规模：1K<n<10K

数据集描述

该数据集包含标注为与非编码RNA（ncRNA）相关或不相关的摘要集合。相关文献标记为1，不相关文献标记为0。

数据构建方法

数据集由五个部分组成：

1. TarBase来源

来自miRNA及其靶标数据库TarBase的ncRNA相关文献
数据来源于文献整理，引用的相互作用论文均与ncRNA相关
主要局限于miRNA相关研究

2. Rfam来源

来自ncRNA家族数据库Rfam的ncRNA相关文献
涵盖4000多种RNA家族，主要为miRNA，但也包含其他类型
Rfam家族通常基于已发表的比对构建，相关论文均与ncRNA相关

3. GO注释来源

来自基因本体（GO）数据库的ncRNA相关文献
部分GO注释由人工 curator 通过阅读文献手动整理
使用ncRNA相关术语整理的论文均与ncRNA相关
主要涉及miRNA-mRNA相互作用分析

4. 人工标注文献

约400篇摘要由RNAcentral和Rfam团队成员手动评估与ncRNA的相关性
来源为EuropePMC查询，旨在尽可能收录潜在相关文献
涵盖所有RNA类型，但规模相对较小

5. 非ncRNA相关文献

使用EuropePMC搜索检索约3500篇不相关文献
搜索查询排除所有RNA相关术语
作为负样本集提供

局限性

正样本集主要来自miRNA相关注释，可能导致模型对其他类型RNA（如snoRNA）的识别效果较差
负样本集可能过于容易区分，因为经过特意筛选为完全不相关文献

搜集汇总

数据集介绍

构建方式

在非编码RNA研究领域，该数据集通过多源整合策略构建而成。其正样本来源于三个权威生物数据库：TarBase收录经文献验证的miRNA靶向互作论文，Rfam家族数据库提供涵盖4000余种RNA类型的结构比对文献，基因本体论GO则贡献了经人工标注的功能注释论文。此外团队手动评估了400篇欧洲PubMed中心检索的摘要以扩展RNA类型覆盖，负样本则通过排除所有RNA相关术语的检索策略获取3500篇无关文献，形成二元分类标签体系。

特点

该数据集呈现出显著的专业领域特征，其正样本高度聚焦于miRNA研究范畴，这源于TarBase和GO注释中miRNA-mRNA互作研究的优势比重。虽然Rfam数据库不断扩充非miRNA类型，但整体仍存在RNA类型分布不均衡现象。负样本设计采用严格排除策略，确保与正样本形成清晰界限，这种构造在提升分类器区分度的同时，也可能导致模型对稀有RNA类型的识别敏感度不足。

使用方法

作为经专业标注的文本分类数据集，研究者可将其直接应用于非编码RNA文献筛选模型的训练与验证。数据以摘要文本与二元标签的对应形式组织，正标签1表征ncRNA相关文献，负标签0代表无关文献。建议使用者关注模型在miRNA之外的泛化能力，可通过交叉验证评估对不同RNA类型的识别效果，亦可结合迁移学习策略优化对稀有RNA类型的分类性能。

背景与挑战

背景概述

随着非编码RNA在基因调控网络中的核心作用日益凸显，RNAcentral联盟于2020年代初期构建了litscan-abstracts数据集，旨在解决生物医学文献中非编码RNA相关研究的自动化识别需求。该数据集通过整合TarBase、Rfam、基因本体论等权威数据库的标注数据，并辅以人工校验机制，构建了包含近万篇文献摘要的二分类语料库。其核心研究目标在于开发能够精准识别ncRNA相关研究的文本分类模型，为生物信息学领域的知识挖掘提供标准化评估基准，显著推动了非编码RNA功能注释与文献挖掘的交叉研究进展。

当前挑战

该数据集面临的核心领域挑战在于非编码RNA种类的多样性识别，现有标注数据过度偏重microRNA类型，导致模型对snoRNA等稀有RNA类型的泛化能力受限。在构建过程中，负样本筛选策略采用严格排除法获取高度无关文献，虽提升分类区分度却可能削弱模型对边缘案例的判别能力。此外，正样本来源依赖既有数据库的引用文献，其标注范围受限于原始数据库的覆盖偏差，难以全面反映非编码RNA研究的最新进展。

常用场景

经典使用场景

在生物信息学领域，litscan-abstracts数据集被广泛应用于非编码RNA（ncRNA）相关文献的自动分类任务。该数据集通过整合TarBase、Rfam和GO等权威数据库的标注信息，构建了正负样本平衡的文本语料，为机器学习模型提供了高质量的监督学习基础。研究人员常利用该数据集训练文本分类器，以识别科学文献中与ncRNA功能相关的摘要内容，这显著提升了生物医学文献挖掘的自动化水平。

实际应用

在实践层面，该数据集支撑的文本分类技术已集成至RNAcentral知识库的LitScan系统中，实现了对欧洲分子生物学文献库（EuropePMC）的实时文献筛选。这种自动化工具帮助生物学家快速定位ncRNA相关研究，显著缩短了文献调研周期。同时，该技术框架还可扩展至其他生物分子领域的文献挖掘，为精准医学和药物研发提供知识发现支持。

衍生相关工作

基于该数据集衍生的经典研究包括多模态神经网络在生物文献分类中的应用探索。例如有研究结合该数据集的文本特征与基因本体注释，构建了混合注意力机制的分类模型。此外，该数据集还被用于评估迁移学习在专业领域的效果，催生了多个面向生物医学文本的预训练语言模型，这些工作持续推动着生物自然语言处理技术的前沿发展。

以上内容由遇见数据集搜集并总结生成