five

Milad96/km-survival-ner-dataset

收藏
Hugging Face2025-10-30 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/Milad96/km-survival-ner-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
K. marxianus生存基因命名实体识别数据集是用于识别*Kluyveromyces marxianus*肠道压力文献中生存基因的高质量命名实体识别数据集。它包含120个样本,其中83.3%用于训练,16.7%用于验证。数据集以英语为语言,采用MIT许可证。支持的任务包括命名实体识别(生物实体提取)、基因功能预测(识别生存基因)和压力响应分析(将基因映射到压力条件)。数据集来源于PubMed、PMC、GEO和bioRxiv,通过BioBERT引导的实体检测进行自动注释,并通过多层验证进行质量控制。数据集的实体密度为15-25%,平均每个样本的标记词为15-20,词汇量为1000-5000个唯一标记,来源多样性为4个来源。

The K. marxianus Survival Gene NER Dataset is a high-quality Named Entity Recognition dataset for identifying survival genes in *Kluyveromyces marxianus* gut stress literature. It contains 120 samples, with 83.3% for training and 16.7% for validation. The dataset is in English and is licensed under MIT. Supported tasks include Named Entity Recognition (biological entity extraction), Gene Function Prediction (identifying survival genes), and Stress Response Analysis (mapping genes to stress conditions). The dataset sources include PubMed, PMC, GEO, and bioRxiv. It is annotated automatically with BioBERT-guided entity detection and undergoes multi-layer validation for quality control. The dataset has an entity density of 15-25%, an average of 15-20 tokens per sample, a vocabulary size of 1,000-5,000 unique tokens, and a source diversity of 4 sources.
提供机构:
Milad96
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作