five

RxSafeBench

收藏
arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://arxiv.org/pdf/2511.04328.pdf
下载链接
链接失效反馈
官方服务:
资源简介:
RxSafeBench是一个用于评估大型语言模型在模拟咨询场景中药物安全能力的综合基准数据集。该数据集由中国科学院深圳先进技术研究院的研究团队创建,包含2443个高质量的咨询场景,涵盖了禁忌症和药物相互作用类型。数据集通过模拟现实咨询对话,嵌入相关药物风险,并采用两阶段筛选策略确保临床真实性和专业质量。RxSafeBench旨在解决当前大型语言模型在药物安全方面的关键挑战,并提供了改进其可靠性的见解。

RxSafeBench is a comprehensive benchmark dataset for evaluating the medication safety capabilities of large language models (LLMs) in simulated consultation scenarios. This dataset was developed by a research team from the Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, and includes 2,443 high-quality consultation scenarios covering contraindications and drug interaction types. The dataset simulates real-world clinical consultation dialogues, embeds relevant medication risks, and adopts a two-stage screening strategy to ensure clinical authenticity and professional quality. RxSafeBench aims to address the key challenges faced by current large language models in medication safety, and provides insights for improving their reliability.
提供机构:
中国科学院深圳先进技术研究院
创建时间:
2025-11-06
搜集汇总
数据集介绍
main_image_url
构建方式
在智能医疗系统快速发展的背景下,RxSafeBench通过构建大规模药物风险数据库RxRisk DB作为基础,该数据库整合了来自权威医学网站的6,725条禁忌症、28,781条药物相互作用及14,906条适应症-药物对应关系。采用部门定制化提示技术,模拟不同专科医患问诊对话,将药物风险隐式嵌入动态交互场景中,并通过两阶段过滤机制确保临床真实性与专业质量,最终形成包含2,443个高质量咨询场景的标准化评估基准。
特点
该数据集创新性地将禁忌症与药物相互作用风险融入模拟问诊流程,覆盖内科、外科等十大医学专科领域,呈现均衡的病例分布。其核心特征在于通过多轮对话设计同时考察显性与隐性风险场景,并采用结构化多选题形式评估模型对安全用药的细粒度推理能力。数据集经过GPT-4驱动的自动评分验证,兼具临床合理性与专业深度,为药物安全评估提供了动态化、多维度的测试环境。
使用方法
研究实践中,使用者可通过加载部门特定的系统提示模板,输入包含患者病史与症状的模拟对话作为上下文。模型需在呈现的三种药物选项中进行决策:包括与症状无关药物、存在风险的有效药物及综合考虑禁忌因素的安全选择。该评估框架支持自动化批量测试,通过统计模型在禁忌症与相互作用场景中的选择准确率,系统分析其药物安全推理能力的薄弱环节,为改进临床决策支持系统提供实证依据。
背景与挑战
背景概述
随着大型语言模型在医疗领域的深度应用,智能诊疗系统已展现出显著的临床潜力。然而,现有研究普遍受限于真实世界用药安全数据的稀缺性,尤其在考虑患者隐私法规与数据可及性的双重约束下。由中国科学院深圳先进技术研究院联合多所高校于2025年提出的RxSafeBench基准,首次构建了覆盖6,725条禁忌症与28,781种药物相互作用的RxRisk DB数据库,通过模拟临床问诊对话创建了2,443个高质量场景,为评估语言模型在禁忌症识别与药物相互作用推理方面的能力提供了标准化框架,推动了AI辅助临床决策系统的安全边界探索。
当前挑战
该数据集致力于解决临床用药安全领域的核心挑战:语言模型在隐含风险情境下的推理薄弱性,尤其当禁忌症或药物相互作用需通过多轮对话语义推断时,现有模型准确率不足40%。在构建过程中,研究团队面临双重困难:其一是真实临床数据因隐私保护难以获取,需通过权威医学知识库构建模拟对话;其二是确保医学专业性与场景真实性的平衡,需采用基于GPT-4的双阶段过滤机制对生成内容进行自动化评分与筛选,以消除不符合现代医学指南的潜在错误。
常用场景
经典使用场景
在智能医疗系统快速发展的背景下,RxSafeBench作为首个专注于药物安全评估的基准数据集,通过模拟真实临床问诊场景构建了2443个高质量案例。其经典应用场景在于系统评估大型语言模型在禁忌症识别和药物相互作用分析中的表现,采用多轮医患对话与结构化选择题形式,覆盖内科、外科等十大医学专科领域,为模型安全性验证提供了标准化测试环境。
实际应用
在临床决策支持系统的实际部署中,RxSafeBench通过模拟处方审核场景发挥着关键作用。其构建的禁忌症案例可辅助检测模型对特定患者群体(如前列腺肥大患者)的用药风险预警能力,而药物交互案例则能验证模型对多药联用潜在危险的识别水平。这些测试场景直接关联电子处方系统、在线药房平台等实际应用场景,为降低医疗差错率提供了重要技术支撑。
衍生相关工作
该数据集的发布催生了多个经典衍生研究方向:在模型架构层面,DeepSeek-R1基于混合专家架构实现了禁忌症任务71.43%的突破性准确率;在评估方法上,研究者通过卡方检验揭示了对话质量与模型决策的显著关联;在技术优化方向,团队提出的部门定制化提示策略为领域自适应提供了新思路,同时启发了针对隐含药物风险的专项微调方案研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作