km-survival-ner-dataset

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/Milad96/km-survival-ner-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对*Kluyveromyces marxianus*肠道应激文献中的生存基因进行识别的高质量命名实体识别数据集，包含120个样本，分为训练集和验证集，支持命名实体识别、基因功能预测和应激响应分析等任务。

创建时间：

2025-10-30

原始信息汇总

K. marxianus Survival Gene NER 数据集概述

数据集简介

高质量命名实体识别数据集，用于识别马克斯克鲁维酵母肠道应激文献中的生存基因。

数据集统计

总样本数: 120
训练集: 100个样本（83.3%）
验证集: 20个样本（16.7%）
语言: 英语
许可证: MIT

支持任务

命名实体识别（NER）: 生物实体提取
基因功能预测: 识别生存基因
应激响应分析: 将基因映射到应激条件

数据结构

数据格式

json { "tokens": ["The", "PMA1", "gene", "encodes", "H+-ATPase", ...], "labels": ["O", "B-GENE", "O", "O", "B-PROTEIN", ...], "source": "pubmed", "source_id": "12345678" }

标签类型（BIO标记法）

O: 非实体
B-GENE: 基因名称开始
I-GENE: 基因名称内部
B-PROTEIN: 蛋白质开始
I-PROTEIN: 蛋白质内部
B-STRESS: 应激条件开始
I-STRESS: 应激条件内部
更多标签...

使用方法

使用HuggingFace Datasets加载

python from datasets import load_dataset dataset = load_dataset("Milad96/km-survival-ner-dataset")

使用JSON加载

python import json with open("train.json") as f: train_data = json.load(f)

数据集创建

数据来源

PubMed: 关于K. marxianus的科学摘要
PMC: 全文文章
GEO: 转录组数据集描述
bioRxiv: 预印本手稿

标注流程

自动标注: BioBERT引导的实体检测
质量控制: 多层验证
数据增强: 智能同义词替换和上下文变化

质量指标

实体密度: 15-25%
平均标记数/样本: 15-20
词汇量: 1,000-5,000个唯一标记
来源多样性: 4个来源

引用信息

bibtex @phdthesis{shaghaghi2025km, title={Functional Genomics of Kluyveromyces marxianus using BioBERT and Pangenome Methodology}, author={Shaghaghi Ranjbar, Milad}, year={2025}, school={Islamic Azad University, Kish International Campus}, url={https://huggingface.co/datasets/Milad96/km-survival-ner-dataset} }

研究背景

作者: Milad Shaghaghi Ranjbar
机构: 伊斯兰阿扎德大学基什国际校区
研究方向: 用于益生菌应用的耐应激酵母功能基因组学

许可证

MIT许可证 - 学术和商业用途免费

致谢

NCBI提供PubMed/PMC访问
GEO提供转录组数据
BioBERT团队
HuggingFace提供基础设施

联系方式

GitHub: https://github.com/Milad96/km-biobert
邮箱: 参见机构网站

最后更新: 2025-10-30

搜集汇总

数据集介绍

构建方式

在微生物功能基因组学领域，该数据集通过系统整合多源生物医学文献构建而成。数据来源于PubMed摘要、PMC全文、GEO转录组学描述及bioRxiv预印本等权威平台，采用BioBERT引导的自动实体检测技术进行初始标注，并通过多层验证机制确保标注质量。为增强数据多样性，研究团队运用智能同义词替换与上下文变异策略进行数据增强，最终形成包含120个样本的高质量标注语料。

使用方法

该数据集可通过HuggingFace平台直接加载，支持基于BioBERT等预训练模型的微调应用。用户可使用标准接口加载训练集与验证集，或通过JSON格式进行本地解析。在具体应用中，建议配置13个标签类别以适应本数据集的实体分类体系，通过调整分类层参数实现命名实体识别、基因功能预测等任务的迁移学习，为肠道胁迫响应机制研究提供结构化数据支撑。

背景与挑战

背景概述

随着合成生物学与微生物组研究的深入，马克斯克鲁维酵母作为耐逆性工业酵母菌株，在肠道应激机制解析领域展现出重要价值。该数据集由伊斯兰阿扎德大学基什国际校区Milad Shaghaghi Ranjbar博士于2025年构建，聚焦于从生物医学文献中提取酵母生存相关基因实体，通过整合PubMed、PMC等四大权威生物数据库的120篇文献样本，采用BioBERT引导的自动标注技术，为功能基因组学研究提供了结构化知识基础。该资源显著推进了益生菌应激响应机制的定量分析，为工业微生物的理性设计提供了数据支撑。

当前挑战

在生物医学命名实体识别领域，基因与蛋白质实体边界的模糊性及同义词变异构成了核心识别难点。本数据集构建过程中面临多源文献术语标准化难题，需通过智能同义词替换与上下文增强技术解决实体表述差异；同时，生物实体嵌套结构（如基因-蛋白质复合体）要求标注系统具备多层次语义解析能力。自动标注流程虽提升效率，但需经过多层验证机制确保在有限样本量下维持15-25%的实体密度与标注一致性，这对生物医学文本挖掘模型的泛化性能提出了更高要求。

常用场景

经典使用场景

在微生物功能基因组学领域，该数据集被广泛用于训练生物医学命名实体识别模型，通过自动提取克鲁维酵母菌在肠道应激环境中的生存基因与蛋白质实体。其标注体系采用BIO标记策略，精准划分基因名称、蛋白质复合物及应激条件等生物实体边界，为后续基因功能预测提供结构化数据支撑。

解决学术问题

该数据集有效解决了微生物应激响应机制研究中实体标注稀缺的瓶颈，通过整合PubMed、PMC等多源生物医学文献，构建了高质量的基因-应激关联语料库。其标注框架不仅支持基因功能注释的自动化提取，更推动了应激响应网络的可视化建模，为理解酵母菌在极端环境下的代谢适应性提供了数据基石。

实际应用

在工业微生物工程领域，该数据集支撑的实体识别模型可直接应用于益生菌株优化。通过解析克鲁维酵母菌在模拟肠道环境中的基因表达谱，研究人员能快速定位耐酸性与耐渗透压的关键基因，为开发新型益生菌制剂和高效生物催化剂提供靶点筛选依据。

数据集最近研究