CGBENCH
收藏arXiv2025-10-14 更新2025-10-16 收录
下载链接:
https://github.com/owencqueen/cgbench
下载链接
链接失效反馈官方服务:
资源简介:
CGBENCH是一个大规模基准测试,用于评估语言模型在临床遗传学中识别和分类科学证据的能力。它源自ClinGen的证据存储库,其中包含数千个基因和变异注释的专家审核。CGBENCH汇集了来自ERepo、VCI标准规范注册表和GCI实践标准中的元素,并将其汇集为LM提示的单一输入。CGBENCH由三个主要任务组成:证据评分、证据验证和证据提取,旨在帮助变异和基因的审查过程。
CGBENCH is a large-scale benchmark developed to evaluate the capacity of language models to identify and classify scientific evidence in clinical genetics. It is derived from the ClinGen evidence repository, which houses expert-curated annotations for thousands of genes and variants. CGBENCH integrates elements from ERepo, the VCI Standard Specification Registry, and the GCI Practice Standards, and unifies these components into a single input for LM prompting. Comprising three primary tasks: evidence scoring, evidence validation, and evidence extraction, CGBENCH aims to facilitate the review process for genetic variants and genes.
提供机构:
斯坦福大学
创建时间:
2025-10-14
原始信息汇总
CGBench数据集概述
数据集基本信息
- 数据集名称:CGBench
- 主要用途:用于评估语言模型在科学推理方面的能力
- 数据来源:基于ClinGen(clinicalgenome.org)临床遗传学知识库
核心功能
- 评估语言模型从科学文献中提取、解释和说明细粒度结果的能力
- 包含三个独立任务:
- VCI证据评分
- VCI证据验证
- GCI证据提取
评估方法
- 基于分类的指标
- 语言模型作为评判者的方法
- 全面评估语言模型性能
数据获取
- 下载地址:https://huggingface.co/datasets/owencqueen/cgbench_data
任务对应脚本位置
- VCI证据评分:
clingen_vci/evidence_scoring/ - VCI证据验证:
clingen_vci/evidence_sufficiency/ - GCI证据提取:
clingen_gci/
搜集汇总
数据集介绍

构建方式
在临床基因组学领域,CGBENCH数据集的构建依托于ClinGen证据库这一权威资源,该库汇集了专家精心整理的临床遗传学文献解读。研究团队从数千个基因与变异注释条目中系统提取数据,通过整合变异分类界面(VCI)的标准化证据代码与基因疾病有效性界面(GCI)的实验证据分类体系,构建了涵盖239个变异注释样本和2155个基因疾病关联样本的基准数据集。每个样本均包含疾病、基因、遗传模式及对应PubMed文献全文,并严格遵循美国医学遗传学与基因组学学会(ACMG/AMP)制定的临床指南,确保数据标注的准确性与临床相关性。
特点
该数据集的核心特征体现在其多层次任务设计上,全面覆盖临床遗传学证据解读的关键维度。变异证据评分任务要求模型根据VCEP规范对文献证据进行三级编码分类,证据验证任务则聚焦于判断特定证据代码是否被满足的二元判定,而实验证据提取任务需要从文献中结构化抽取13类实验证据及其强度评分。数据集特别强调对精细指导的遵循能力,不同变异专家小组(VCEP)的指南差异要求模型具备强大的跨领域泛化能力。此外,2680条专家提供的证据解释为评估模型推理过程提供了珍贵基准,突显了其在真实临床研究场景中的实用价值。
使用方法
使用该数据集时,研究者可通过三种核心任务评估语言模型的科学文献解读能力。在变异证据评分任务中,模型需根据给定的变异、疾病和遗传模式信息,结合全文文献内容预测适用的证据代码;证据验证任务则要求模型判断特定证据代码是否被文献内容所支持;实验证据提取任务需要模型从文献中识别实验证据类别、生成解释文本、评估证据强度并说明评分调整理由。基准测试支持零样本提示、思维链提示及上下文学习等多种评估方式,特别推荐使用任务感知的提示策略,并可通过LM-as-judge方法将模型解释与专家标注进行对比分析,全面衡量模型在临床遗传学领域的实际应用潜力。
背景与挑战
背景概述
临床基因组学领域正经历着测序技术革命带来的深刻变革,基因变异与疾病关联的精准解读已成为个性化医疗的核心环节。CGBENCH数据集由斯坦福大学研究团队于2025年创建,基于美国国立卫生研究院资助的ClinGen专家知识库构建,旨在解决传统基因变异解读过程中人工证据梳理效率低下的关键瓶颈。该数据集通过系统化整合临床遗传学专家对科学文献的标注结果,为评估语言模型在复杂生物医学证据推理能力方面建立了新标准,推动了人工智能在转化医学研究中的应用边界。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决基因-疾病关联验证和变异致病性判定中证据强度分级、多源证据矛盾解析等复杂认知任务,要求模型具备精准遵循临床指南的推理能力;在构建过程中,面临专家标注一致性保障、多模态科学文献数据整合、跨疾病特异性指南适配等技术难点,特别是需要处理证据代码层次化结构理解与不同变异 curation 专家小组规范差异带来的复杂性。
常用场景
经典使用场景
在临床遗传学研究领域,CGBENCH作为评估语言模型科学推理能力的基准数据集,其经典应用场景聚焦于基因与变异位点的临床意义解读。该数据集通过构建证据评分、证据验证和实验证据提取三大核心任务,系统评估语言模型从科学文献中提取关键实验证据、判断证据强度以及分类实验结果的能力。这些任务模拟了真实临床遗传学研究中专家进行文献证据合成的完整流程,为评估语言模型在复杂科学推理任务中的表现提供了标准化测试平台。
衍生相关工作
CGBENCH的发布催生了一系列相关研究工作的开展。在基准测试方法方面,研究者基于该数据集开发了新型提示工程策略,如上下文学习与思维链提示,显著提升了语言模型在细粒度证据分类任务上的表现。在模型架构创新领域,该数据集推动了专业领域语言模型的发展,特别是针对临床遗传学文本理解的特化模型。此外,基于CGBENCH评估框架衍生出的多模态证据整合方法,为处理科学文献中的图表数据提供了新思路,进一步扩展了人工智能在生物医学研究中的应用边界。
数据集最近研究
最新研究方向
在临床遗传学领域,CGBENCH数据集的推出标志着生成式语言模型在科学文献推理评估方面迈出了关键一步。该数据集基于ClinGen专家标注资源,聚焦于基因与变异致病性判读中的证据提取、强度评估和分类描述三大核心任务,揭示了当前模型在遵循精细指南和解释实验证据方面的显著不足。前沿研究正着力于优化提示工程与上下文学习策略,以提升模型对复杂遗传学协议的理解能力;同时,LM-as-a-judge等创新方法被用于量化模型解释与人类专家的一致性,推动AI在精准医疗中的可解释性发展。这一基准不仅加速了AI在转化医学中的应用探索,也为高风险科学任务中的模型对齐问题提供了重要实验平台。
相关研究论文
- 1CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research斯坦福大学 · 2025年
以上内容由遇见数据集搜集并总结生成



