zhiweizhang988/PubGen
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/zhiweizhang988/PubGen
下载链接
链接失效反馈官方服务:
资源简介:
PubGen是一个生成性框架,用于映射生物医学研究领域的科学文献嵌入。该框架包含五种独立的研究任务:1) 使用t-SNE进行降维可视化;2) 基于VAE的生成模型,包括掩码样本重建和Sinkhorn损失;3) 直接从768D嵌入进行多任务分类和分数预测;4) VAE扰动分析,包括稀疏训练、关键词预测和时间趋势检测;5) 使用因果LLM(如Qwen3)进行推理,通过MLP投影器将嵌入向量映射到LLM令牌空间。项目结构详细说明了各任务的代码和数据组织方式。
PubGen is a generative framework for mapping the biomedical research landscape through scientific literature embeddings. It includes five independent research tasks: 1) t-SNE dimensionality reduction for visualization; 2) VAE-based generative modeling with masked sample reconstruction and Sinkhorn loss; 3) direct prediction tasks including multi-task classification and score prediction from original 768D embeddings; 4) VAE perturbation analysis featuring sparse training, keyword prediction, and temporal trend detection; 5) LLM inference using causal models (e.g., Qwen3) with MLP projectors to map embedding vectors to LLM token space. The project structure details the organization of code and data for each task.
提供机构:
zhiweizhang988
搜集汇总
数据集介绍

构建方式
PubGen数据集构建于生物医学文献的深度解析之上,旨在通过生成式框架系统性地描绘科研图景。其构建核心依托于PubMedBERT模型提取的768维文献嵌入向量,并辅以包含论文标注、期刊、国家及质量评分在内的多维度元数据。数据经过精心筛选,形成适用于不同研究任务的子集,例如用于t-SNE可视化的2K样本集、用于掩码变分自编码器生成任务的10K样本集,以及附带对应摘要文本的2K嵌入向量与文本对,从而为多维度分析提供了坚实的数据基础。
特点
该数据集的核心特色在于其多任务导向的结构设计与丰富的分析维度。它不仅提供了原始的高维嵌入表示,更通过五项独立的研究工作流,覆盖了从降维可视化、生成式建模、直接预测到潜在空间扰动分析与大语言模型推理的完整链路。特别是,数据集支持掩码自编码器的空洞与随机掩码策略、潜在空间的因果干预实验,以及将嵌入向量映射至大语言模型令牌空间的跨模态转换,展现了从表征学习到语义生成的全方位研究潜力。
使用方法
PubGen数据集的使用路径灵活多样,研究者可根据任务需求选择相应模块。用户可通过t-SNE模块进行高维嵌入的低维可视化;利用MaskVAE生成框架执行带Sinkhorn损失的掩码重构;在预测模块中基于原始嵌入向量完成多标签分类与质量评分预测;或通过变分自编码器对潜在空间进行扰动分析与时间趋势检测。对于高级应用,LLM模块提供了将嵌入向量经由MLP投影器与LoRA适配器输入因果语言模型以生成摘要文本的完整流程,所有模块均配有标准化脚本与Jupyter教程,便于快速复现与扩展。
背景与挑战
背景概述
在生物医学研究文献呈指数级增长的背景下,如何高效解析并结构化海量知识图谱成为计算生物学领域的核心挑战。PubGen数据集由Zhiwei Zhang等人于2024年创建,旨在通过深度生成框架映射生物医学研究的全景拓扑。该数据集以PubMedBERT提取的768维嵌入向量为核心,覆盖超过2000篇文献的标注、期刊、国家等多维元数据,并配套提供了涵盖t-SNE降维、VAE生成建模、多任务分类及大语言模型推理的完整分析管线。其创新性地融合了掩码变分自编码器(MaskVAE)与Sinkhorn损失函数,实现了文献语义空间的非监督重构与隐式分布对齐,为生物医学知识发现提供了可复现的基准平台。该数据集已在自然语言处理与生物信息学交叉领域产生重要影响,推动了解剖科学文献隐性结构的前沿研究。
当前挑战
PubGen所解决的领域挑战在于突破传统文献计量学中基于关键词或引文的表面分析局限,转向对语义嵌入空间的深度解析。生物医学文献的异质性、时序演化以及跨模态关联构成了三大核心难题:首先,不同子领域的术语歧义性导致嵌入向量的聚类边界模糊;其次,传统降维方法(如PCA)难以保留多重语义粒度的局部流形结构;再者,现有生成模型在低资源场景下对罕见疾病或新兴研究方向的重构精度不足。在构建过程中,研究者面临标注数据的稀疏性(仅2000样本)、高维隐空间的过拟合风险(2048维潜在变量),以及VAE训练中KL散度与重构损失的动态平衡挑战。此外,将768维实体嵌入对齐至大语言模型的token空间时,MLP投影器的非线性映射可能存在语义失真,且LoRA适配器的低秩假设在生物学术语推断中需验证其泛化边界。
常用场景
经典使用场景
PubGen数据集的核心设计在于将生物医学文献的高维语义嵌入与生成式框架深度融合,构建了一个面向研究前沿动态的可视化与生成分析平台。其经典使用场景涵盖t-SNE降维与聚类可视化,借助openTSNE的PCA初始化和夸张退火策略,将海量文献的768维BERT嵌入投影至二维空间,精准刻画研究主题的宏观分布格局。在此基础上,MaskVAE生成模型通过空洞掩蔽与随机掩蔽策略,结合Sinkhorn损失函数进行分布匹配,实现了对文献嵌入的部分重构与全局潜变量学习,为探索科学知识的隐式结构提供了强有力的生成式工具。
解决学术问题
该数据集有效回应了生物医学信息学中若干关键挑战,包括如何从海量异构文献中自动提取可解释的结构化知识,以及如何在高维嵌入空间中实现跨任务的统一表征学习。通过多任务分类和分数预测,PubGen直接从原始768D嵌入预测论文的注释标签、期刊归属和国家分布,解决了传统文献分类依赖人工标注的瓶颈。VAE扰动分析进一步揭示了潜空间中时间趋势维度与关键词预测维度的对应关系,发现了维度间的双重分离和交互效应,为理解科学概念在隐空间中的语义组织提供了全新范式。
衍生相关工作
围绕PubGen框架已衍生出一系列具有影响力的研究工作。在表征学习方面,标准VAE与稀疏训练的结合启发了面向高维生物数据的隐空间正则化方法,推动了解耦表征在科学文献分析中的应用。时间趋势检测与扰动分析路线催生了对科学概念演化的动态追踪技术,为科技情报学中前沿识别和知识融合提供了计算工具。双重分离发现工作则为神经科学中功能性维度特异性假设提供了跨领域验证范例。最终,LLM推理模块连接了嵌入空间与自然语言生成,预示了向可解释科学探索系统和个性化文献问答助手的发展方向,为构建下一代知识驱动型科研基础设施奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



