afg1/litscan-epmc-subset

Name: afg1/litscan-epmc-subset
Creator: afg1
Published: 2024-01-16 16:33:56
License: 暂无描述

Hugging Face2024-01-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/afg1/litscan-epmc-subset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是[afg1/epmc-oa-subset](https://huggingface.co/datasets/afg1/epmc-oa-subset)的一个子集，源自[Europe PMC开放获取子集](https://europepmc.org/downloads/openaccess)中的约590万篇文章。通过结合LitScan识别的PMCIDs，从完整的开放获取子集中提取了约960个parquet文件，最终形成了一个包含约100万篇关于ncRNA的开放获取全文文章的数据集。该数据集主要用于领域特定文本的预微调，类似于NVIDIA的ChipNeMo模型所做的领域适应。计划在该数据集上微调一些模型，如TinyLlama，以生成用于RAG的嵌入或进一步的下游任务微调，如摘要生成。数据集的局限性包括JATS解析可能导致的文本缺失或标签残留，以及LitScan在识别RNA IDs时的高误报率。

提供机构：

afg1

原始信息汇总

LitScan EPMC Subset 数据集概述

数据集来源

该数据集是 afg1/epmc-oa-subset 的一个子集，后者源自 Europe PMC open access subset，包含约 590 万篇文章。

数据集构建

从完整的 OA 子集中提取约 960 个 parquet 文件，并与通过 LitScan 找到的 PMCIDs 列表进行匹配，这些 PMCIDs 对应于从 RNAcentral 搜索的约 960 万个 ID，主要讨论非编码 RNA（ncRNA）。
最终得到约 100 万篇关于 ncRNA 的开放获取全文文章。

主要用途

该数据集主要用于领域特定文本的预微调，类似于 NVIDIA 的 ChipNeMo 模型的领域适应。

计划应用

计划在该数据集上微调一些模型，如 TinyLlama，这些模型可用于生成嵌入向量（如 RAG）或进一步在摘要等下游任务上进行微调。

局限性

数据集中的 parquet 文件是从 JATS 解析而来，可能存在文本缺失或包含奇怪标签的情况，尽管这些情况较为罕见。
LitScan 存在较高的假阳性率，尤其是对于一些较为通用的 RNA ID，因此数据集中可能包含一些与 RNA 无关的文章，如混凝土、雌性小鼠、循环神经网络等。

搜集汇总

数据集介绍

构建方式

在生物医学文献挖掘领域，获取高质量且领域聚焦的文本资源至关重要。本数据集源自欧洲PubMed中心（Europe PMC）开放获取子集的约590万篇文章，通过对其约960个Parquet文件进行解析与筛选构建而成。核心构建步骤是将其与LitScan工具从RNAcentral中检索出的约960万个可能涉及非编码RNA（ncRNA）的文献PMCID列表进行关联匹配，最终精炼出超过100万篇明确以ncRNA为主题的开放获取全文文献集合。

使用方法

该数据集主要服务于自然语言处理在专业领域的应用研究。其核心用途是作为领域自适应预训练的优质语料，类似于芯片设计领域对ChipNeMo模型的训练方法。研究人员可利用此数据集对基础语言模型（如TinyLlama）进行预训练或微调，以获取在ncRNA领域具有深层语义理解能力的模型。训练后的模型可进一步应用于生成检索增强生成（RAG）所需的文本嵌入，或作为下游任务（如文献摘要生成）的强基础模型，从而推动生物医学文本智能处理技术的发展。

背景与挑战

背景概述

在生物医学信息学领域，非编码RNA（ncRNA）的研究日益成为理解基因调控与疾病机制的关键。afg1/litscan-epmc-subset数据集于近年由研究人员基于欧洲PubMed Central（Europe PMC）开放获取子集构建，旨在整合LitScan工具筛选出的ncRNA相关文献。该数据集的核心研究问题聚焦于为领域自适应预训练提供高质量的文本资源，以支持如检索增强生成（RAG）和文本摘要等下游任务，其创建推动了生物医学文本挖掘与自然语言处理技术的交叉应用。

当前挑战

该数据集面临的挑战主要源于其构建过程与领域特性。在领域问题层面，非编码RNA文献的精准识别存在困难，由于RNA标识符的通用性，LitScan工具可能引入较高误报率，导致数据集包含大量无关主题的文献，影响领域自适应的效果。在构建过程中，数据来源于JATS格式解析，常出现文本缺失或标签残留等解析错误，虽属罕见但难以完全避免，这进一步增加了数据清洗与质量控制的复杂度。

常用场景

经典使用场景

在生物医学信息学领域，afg1/litscan-epmc-subset数据集为自然语言处理模型提供了针对非编码RNA（ncRNA）领域的预训练语料。该数据集从欧洲PubMed中心开放获取子集中筛选出约100万篇相关全文文献，专门用于领域自适应训练，帮助模型深入理解ncRNA的专业术语、研究范式与知识结构，从而提升在生物医学文本生成任务中的表现。

解决学术问题

该数据集有效解决了生物医学文本挖掘中领域知识稀缺的挑战，为ncRNA研究提供了大规模、高质量的训练资源。通过领域自适应预训练，模型能够更准确地捕捉专业文献中的语义关联，显著改善信息抽取、关系发现和知识图谱构建等任务的性能，推动计算生物学与人工智能的交叉融合。

实际应用

在实际应用中，该数据集支持构建面向ncRNA的检索增强生成系统，为科研人员提供文献摘要生成、知识问答和假设发现等智能辅助工具。同时，其衍生的嵌入向量可用于改进生物医学数据库的语义检索效率，加速从海量文献中提取关键科学发现的进程。

数据集最近研究