km-survival-ner-dataset
收藏K. marxianus Survival Gene NER 数据集概述
数据集简介
高质量命名实体识别数据集,用于识别马克斯克鲁维酵母肠道应激文献中的生存基因。
数据集统计
- 总样本数: 120
- 训练集: 100个样本(83.3%)
- 验证集: 20个样本(16.7%)
- 语言: 英语
- 许可证: MIT
支持任务
- 命名实体识别(NER): 生物实体提取
- 基因功能预测: 识别生存基因
- 应激响应分析: 将基因映射到应激条件
数据结构
数据格式
json { "tokens": ["The", "PMA1", "gene", "encodes", "H+-ATPase", ...], "labels": ["O", "B-GENE", "O", "O", "B-PROTEIN", ...], "source": "pubmed", "source_id": "12345678" }
标签类型(BIO标记法)
O: 非实体B-GENE: 基因名称开始I-GENE: 基因名称内部B-PROTEIN: 蛋白质开始I-PROTEIN: 蛋白质内部B-STRESS: 应激条件开始I-STRESS: 应激条件内部- 更多标签...
使用方法
使用HuggingFace Datasets加载
python from datasets import load_dataset dataset = load_dataset("Milad96/km-survival-ner-dataset")
使用JSON加载
python import json with open("train.json") as f: train_data = json.load(f)
数据集创建
数据来源
- PubMed: 关于K. marxianus的科学摘要
- PMC: 全文文章
- GEO: 转录组数据集描述
- bioRxiv: 预印本手稿
标注流程
- 自动标注: BioBERT引导的实体检测
- 质量控制: 多层验证
- 数据增强: 智能同义词替换和上下文变化
质量指标
- 实体密度: 15-25%
- 平均标记数/样本: 15-20
- 词汇量: 1,000-5,000个唯一标记
- 来源多样性: 4个来源
引用信息
bibtex @phdthesis{shaghaghi2025km, title={Functional Genomics of Kluyveromyces marxianus using BioBERT and Pangenome Methodology}, author={Shaghaghi Ranjbar, Milad}, year={2025}, school={Islamic Azad University, Kish International Campus}, url={https://huggingface.co/datasets/Milad96/km-survival-ner-dataset} }
研究背景
- 作者: Milad Shaghaghi Ranjbar
- 机构: 伊斯兰阿扎德大学基什国际校区
- 研究方向: 用于益生菌应用的耐应激酵母功能基因组学
许可证
MIT许可证 - 学术和商业用途免费
致谢
- NCBI提供PubMed/PMC访问
- GEO提供转录组数据
- BioBERT团队
- HuggingFace提供基础设施
联系方式
- GitHub: https://github.com/Milad96/km-biobert
- 邮箱: 参见机构网站
最后更新: 2025-10-30




