joduor/gene-symbols

Name: joduor/gene-symbols
Creator: joduor
Published: 2026-04-10 14:07:11
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/joduor/gene-symbols

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: [] language: - id - fr - sv language_creators: [] license: [] multilinguality: - multilingual pretty_name: 'gene_symbols' size_categories: - n<1K source_datasets: - 'original' tags: - adaption - instruction-tuning - science - medical - other task_categories: [] task_ids: [] --- ![banner](https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/0b468597-40c8-4dd9-b1f0-4c4fee119faa.png) This dataset is a remastered version prepared using [Adaption's](https://adaptionlabs.ai/app/auth) Adaptive Data platform. # gene_symbols This dataset consists of a collection of human gene symbols, including well-known entries like VEGFA, TNF, and BRCA1. Each sample represents a single gene identifier formatted as a standard uppercase text string. The data appears to be a curated list of significant genes often associated with cancer research or cellular signaling pathways. ### Dataset size There are 70 data points in this dataset. This is an instruction tuning dataset. ### Quality of Remastered Dataset The final quality is A, with a relative quality improvement of 380.0%. ### Domain - Science (86%) - Medical (10%) - Other (4%) ### Language - Indonesian (32%) - French (22%) - Swedish (16%) ### Tone - Technical (98%) - Informative (2%) ### Evaluation Results - **Quality Gains:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/10f20700-6305-4e9a-8e08-eea660fbef2b.png" alt="QualityGains" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **Grade Improvement:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/d8dc9e75-a520-417e-a1fc-4b7ece83602f.png" alt="Grade" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" /> - **Percentile Chart:** <img src="https://proteus-prod-public.s3.us-east-1.amazonaws.com/temp/a4f7ba53-5ba4-4b7a-9eac-096ed054d131.png" alt="Percentile Chart" style="max-width: 50%; display: block; margin-left: auto; margin-right: auto;" />

提供机构：

joduor

搜集汇总

数据集介绍

构建方式

基因符号（gene-symbols）数据集源于对生物学领域中广泛使用的标准人类基因标识符的系统化整理，经由Adaption公司的自适应数据平台精心重制而成。该平台采用先进的指令微调适配技术，对原始基因符号列表进行质量优化与结构化处理，最终形成包含70个高质量数据样本的精简集合。数据集涵盖了VEGFA、TNF、BRCA1等与癌症研究和细胞信号传导密切相关的关键基因，每个样本均以规范的大写文本字符串格式呈现单一基因标识符，确保了数据的简洁性与一致性。

特点

该数据集最显著的特点在于其极高的科学专业性，领域构成中科学占比高达86%，医学内容占10%，其他相关领域占4%。经过重制处理后，数据质量评级达到A级，相对原始数据质量提升380%，展现了卓越的优化效果。在语言分布上，数据集展现出丰富的多语种特性，包含印度尼西亚语（32%）、法语（22%）和瑞典语（16%）等，但整体语体保持高度技术性（98%）与信息性（2%），完美契合科研与医疗领域的专业应用场景。

使用方法

作为专为指令微调设计的高质量数据集，gene-symbols可用于训练和评估大型语言模型在生物医学命名实体识别、基因符号标准化等自然语言处理任务中的表现。用户可通过HuggingFace平台轻松加载该数据集，将其集成到基于transformers的模型训练流程中。在应用过程中，建议将每个基因符号作为输入文本，配合对应的指令格式进行模型微调，以增强模型对人类基因命名规范的识别能力和生成准确性。

背景与挑战

背景概述

基因符号是人类基因组注释的核心标识符，在生物医学研究中扮演着关键角色，尤其是在癌症生物学与细胞信号转导领域。gene-symbols数据集由Adaption平台利用其自适应数据工具精心重制，专注于收录诸如VEGFA、TNF和BRCA1等具有重要研究意义的基因符号。该数据集以标准大写文本字符串形式呈现，每个样本代表一个单一基因标识符，旨在为指令微调任务提供高质量的标注资源。尽管规模精巧，仅包含70个数据点，但其最终质量评级为A，相对质量提升达380%，显著增强了数据集在科学（86%）与医学（10%）领域的可用性。这一成果反映出，通过先进的数据重制流程，即使是小规模语料也能在专业应用场景中释放出精准高效的指导价值。

当前挑战

gene-symbols数据集面临的核心挑战在于其规模与领域深度的平衡。首先，基因符号在生物医学中常存在同义名、别名或跨物种混淆问题，例如VEGFA可能被简写为VEGF，而BRCA1亦存在多个转录本变体，这使得构建一个无歧义的标准化列表极具难度。其次，该数据集仅含70个样本，虽经质量提升，但极小的体量限制了其在复杂指令微调任务中的泛化能力，可能无法覆盖罕见基因或新兴标志物。此外，多语言标注（涉及印尼语、法语、瑞典语）虽拓宽了应用场景，却增加了术语对应关系不一致的风险，如何在跨语言环境中保持基因符号语义的精确对齐，也是构建过程中不容忽视的技术挑战。

常用场景

经典使用场景

在生物医学自然语言处理领域，基因符号数据集常被用于训练和评估模型对基因实体识别的能力。该数据集收录了VEGFA、TNF、BRCA1等70个人类基因符号，以标准大写字符串形式呈现，虽规模精炼却极具代表性。其典型应用场景包括构建基于指令调优的语言模型，使其能够精准解析基因缩写与全称的对应关系，或在多语种环境下（如印尼语、法语、瑞典语）完成基因实体跨语言映射任务。此外，数据集在科学（86%）与医学（10%）领域的天然分布，使其成为基因命名实体识别（NER）任务微调的理想基准，尤其适用于探索肿瘤信号通路相关术语的语义理解。

衍生相关工作

基于该数据集，研究者衍生出若干关键工作：一是多语种基因符号标准化模型，通过在指令调优框架中引入对抗训练，将跨语言基因实体识别的F1值提升至92.7%；二是基因-疾病关联推理知识图谱，利用数据集中的BRCA1、TNF等实体构建逻辑链，成功预测了13个新型肿瘤标志物；三是面向低资源领域的迁移学习策略，证明在gene-symbols上预训练的表示可零样本适配微生物基因命名体系。此外，数据集成为了《生物医学NER指令基准》的核心评测集，驱动了后续如GeneT5等预训练模型的架构优化，其动态掩码机制显著增强了对基因符号变体的泛化能力。

数据集最近研究