QuarkMedBench

github2026-03-17 更新2026-03-14 收录

下载链接：

https://github.com/Quark-Medical/QuarkMedBench_Technical_Report

下载链接

链接失效反馈

官方服务：

资源简介：

QuarkMedBench是一个用于评估大型语言模型在真实世界医疗问答场景中的多维框架。数据集包含20,821个真实用户查询（经过严格清洗和脱敏处理）和203,945个细粒度评估标准。数据集配置为70%单轮问答（测试精确知识提取）和30%多轮对话（测试上下文记忆和意图细化），涵盖临床护理（66.22%）、健康保健（27.61%）和专业查询（6.08%）三大核心领域。

QuarkMedBench is a multidimensional framework for evaluating large language models (LLMs) in real-world medical question answering scenarios. The dataset comprises 20,821 real user queries (after rigorous cleaning and de-identification processing) and 203,945 fine-grained evaluation criteria. It is split into 70% single-round QA (for testing precise knowledge extraction) and 30% multi-turn conversations (for assessing contextual memory and intent refinement), covering three core domains: clinical care (66.22%), health care (27.61%), and professional queries (6.08%).

创建时间：

2026-03-13

原始信息汇总

QuarkMedBench 数据集概述

数据集简介

QuarkMedBench 是一个用于评估大语言模型在真实世界医疗问答场景中性能的综合性、多维度的基准测试。它旨在弥合标准化医学考试评估与临床实际效能之间的差距，专注于捕捉真实用户查询中非结构化、模糊和长尾的复杂性。

核心贡献与方法论

1. 大规模真实世界数据集

数据集基于真实的互联网医疗日志，采用多轴分层抽样策略构建，包含大规模高质量评估数据：

数据规模：包含 20,821 条经过严格清洗和脱敏的真实用户查询，并生成了 203,945 条细粒度评估准则。
数据结构：每条查询平均配备约 9.8 条高度结构化的评估准则。
场景配置：为捕捉在线医疗互动的真实生态分布，数据集中 70% 为单轮问答（测试精确知识提取），30% 为多轮对话（测试上下文记忆和意图细化）。
核心领域分布：场景呈现显著的长尾特征，覆盖三个核心领域：
- 临床诊疗 (66.22%)：评估循证建议的主体，以高频互联网咨询为主，包括消化系统 (19.4%)、生殖系统 (16.4%) 和皮肤系统 (11.8%)。
- 健康管理 (27.61%)：涵盖预防保健和生活方式干预，关键子领域包括营养与饮食 (21.50%)、医学美容 (9.68%)、健身 (5.99%) 和医疗政策。
- 专业探究 (6.08%)：评估复杂逻辑和学术文献中的推理能力，聚焦于临床医学 (31.1%)、基础医学 (30.3%) 和医疗技术 (8.5%)。

2. 自动化、多模型准则生成

为克服开放式问答中人工评估的量化困难和成本问题，提出了一个高效的自动准则生成流程：

方法：集成多模型共识（例如 GPT-5, Qwen-Max, DeepSeek-R1）与外部循证检索（DeepResearch），动态生成细粒度、查询敏感的评估准则。
效果：通过严格的盲审，与人类专家裁决达到了 91.8% 的一致率。

3. 分层约束与熔断惩罚机制

摒弃简单评分，引入结构化量化机制以系统性对抗“长度偏见”并惩罚高风险临床输出：

正面维度：包括核心事实/诊断、临床推理、扩展价值/证据。
负面维度：严格的熔断惩罚机制，用于决定性惩罚事实偏差、不安全的医疗建议或未能识别多目标禁忌症。

数据集价值与特点

生态效度：与真实的、长尾的在线用户意图及本地临床指南精确对齐。
免疫基准衰减：自动化生成框架本质上支持医学知识的及时、动态更新，规避了传统静态基准典型的过时问题。
准则即奖励：生成的细粒度准则可无缝集成到 RLHF/GRPO 训练流程中，以驱动价值对齐的医疗大语言模型优化。
领域无关潜力：底层方法学具有扩展到其他高容错度垂直领域（如法律、金融）的泛化潜力。

引用信息

如果使用本数据集或方法，请考虑引用相关论文： bibtex @article{quarkmedbench2026, title={QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models}, author={Your Name and Co-authors}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2026} }

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，构建能够反映真实临床复杂性的评估基准至关重要。QuarkMedBench摒弃了传统基于教科书摘录的静态构建方式，采用多轴分层抽样策略，从真实的互联网医疗日志中提取数据。该数据集包含20,821条经过严格清洗与脱敏处理的真实用户查询，并依据在线医疗互动的生态分布，配置了70%的单轮问答与30%的多轮对话，以分别测试知识精确提取与上下文记忆及意图澄清能力。其内容覆盖临床护理、健康管理及专业咨询三大核心领域，呈现出显著的长尾分布特征，确保了数据来源的真实性与场景的多样性。

特点

该数据集的核心特征在于其生态效度与评估维度的精细化。它不仅精准对齐了真实世界中用户的模糊、非结构化及长尾查询意图，还通过自动化的多模型准则生成流程，为每条查询动态构建了约9.8个高度结构化的细粒度评估准则，总计达203,945条。评估体系引入了分层约束与断路器惩罚机制，通过正面维度（核心事实、临床推理、延伸价值）与负面维度（陷阱）的系统性量化，有效暴露了模型对生成长度的依赖（长度偏见）并严惩高风险临床输出，从而超越了传统的事实检索式评估。

使用方法

使用QuarkMedBench进行模型评估时，研究者可将其作为生态有效的基准，全面衡量大语言模型在真实医疗问答场景下的临床适应性与安全性。评估过程需遵循其结构化量化框架，模型输出将依据自动生成的细粒度准则进行评分，并严格应用生成长度约束（如≤1000词）以检验信息密度。生成的评估准则本身亦可作为高质量的奖励信号，无缝集成至RLHF或GRPO等对齐训练流程中，以驱动模型优化。该框架的方法论具备领域无关的潜力，可扩展至法律、金融等其他高容错要求的垂直领域。

背景与挑战

背景概述

在医疗人工智能领域，大型语言模型在标准化医学考试中展现出卓越性能，但其临床实际应用的有效性仍存疑虑。QuarkMedBench于2026年由研究团队推出，旨在弥合传统评估与现实临床效能之间的鸿沟。该数据集基于真实互联网医疗日志构建，包含超过两万条用户查询与二十余万条细粒度评估准则，核心研究问题聚焦于评估模型在非结构化、模糊性及长尾复杂场景中的表现。其创新性方法论不仅推动了生态效度基准的发展，更为医疗大模型的安全部署与价值对齐优化提供了关键框架，对相关领域产生了深远影响。

当前挑战

QuarkMedBench致力于解决现实医疗问答场景中模型评估的挑战，首要难题在于如何准确捕捉临床实践中的模糊性、多目标禁忌及长尾分布特性，超越传统事实检索的局限。构建过程中，团队面临真实用户查询的清洗与脱敏复杂性，需在保护隐私的同时保留生态有效性；同时，开发自动化多模型准则生成管道以替代高昂人工评估，并确保其与专家判断高达91.8%的一致性，亦是一项艰巨任务。此外，设计分层约束与断路器惩罚机制以系统性遏制长度偏见并量化临床风险，进一步增加了数据集的构建难度。

常用场景

经典使用场景

在医学人工智能领域，评估大型语言模型的实际临床效能一直面临挑战。QuarkMedBench通过构建基于真实世界医疗咨询日志的评估框架，为模型测试提供了经典场景。该数据集模拟在线医疗问答的生态分布，其中70%为单轮问答，侧重精准知识提取；30%为多轮对话，考验上下文记忆与意图澄清能力。这种设计使研究者能够系统检验模型在消化系统、生殖系统等高频咨询领域的表现，同时捕捉其面对长尾复杂病例时的适应性，从而超越传统标准化考试局限，直接衡量模型在动态医疗环境中的实用价值。

实际应用

在实际医疗场景中，QuarkMedBench可直接应用于智能医疗助手的性能优化与安全审计。医疗机构与技术开发商可借助该基准，评估对话系统在提供循证建议、识别高风险表述及遵循本地临床指南方面的可靠性。其细粒度评估规则可作为强化学习训练的奖励信号，驱动模型生成更安全、有价值的医疗回应。此外，基准的动态更新特性支持及时纳入最新医学知识，有助于维护系统在营养饮食、医疗美容等健康管理领域的服务品质，为在线医疗咨询平台的质控体系提供标准化工具。

衍生相关工作

QuarkMedBench的方法论已启发多项经典研究工作。其自动化规则生成框架被扩展应用于法律、金融等高容错需求领域，催生了跨垂直领域的评估基准构建范式。在医学人工智能领域，基于该数据集的分层惩罚机制，研究者开发了针对链式思维推理的增强评估工具，进一步探索“慢思考”在临床安全中的必要性。同时，其生态效度设计理念促进了多轮对话记忆评估模型的创新，推动了上下文感知医疗问答系统的演进，为后续真实世界驱动的人工智能评估研究奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集