five

SkyWhal3/PEX10-RAG-Nemotron

收藏
Hugging Face2026-04-23 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/SkyWhal3/PEX10-RAG-Nemotron
下载链接
链接失效反馈
官方服务:
资源简介:
PEX10-ARIA RAG数据库v1是一个专为PEX10基因和过氧化物酶体生物合成障碍(PBD)研究设计的检索增强生成(RAG)数据集。它包含来自835篇PubMed Central(PMC)生物医学论文的98,734个索引文本块,以及1,495个结构化条目(包括1,016个ClinVar变异、198个截断后果卡片和281个ESMFold变异结构分析)。这些数据使用NVIDIA的Llama-Nemotron-Embed-1B-v2模型进行2048维嵌入,以提供高精度的语义检索。数据集是ARIA罕见病家族的一部分,旨在支持PEX10相关研究的治疗查询和知识整合。

The PEX10-ARIA RAG Database v1 is a retrieval-augmented generation (RAG) dataset designed for PEX10 gene and peroxisomal biogenesis disorder (PBD) research. It includes 98,734 indexed text chunks from 835 curated PubMed Central (PMC) biomedical papers, along with 1,495 structured entries (1,016 ClinVar variants, 198 truncation consequence cards, and 281 ESMFold variant structural analyses). These data are embedded using NVIDIAs Llama-Nemotron-Embed-1B-v2 model, featuring 2048-dimensional embeddings for high semantic precision. The dataset is part of the ARIA rare-disease family and is intended to support therapeutic queries and knowledge integration in PEX10-related research.
提供机构:
SkyWhal3
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作