MedReason|医学推理数据集|知识图谱数据集

github2025-04-08 更新2025-04-09 收录

医学推理

知识图谱

下载链接：

https://github.com/UCSC-VLAA/MedReason

下载链接

链接失效反馈

资源简介：

MedReason是一个大规模高质量的医学推理数据集，旨在使大型语言模型（LLMs）能够进行忠实和可解释的医学问题解决。我们利用结构化的医学知识图（KG）将临床问答对转换为逻辑推理链或“思考路径”。我们的管道为来自7个医学数据集的各种医学问题生成详细的推理，结果是一个包含32,682个问答对的数据集，每个问答对都有详细的逐步解释。

创建时间：

2025-04-01

原始信息汇总

MedReason数据集概述

数据集简介

名称: MedReason
类型: 医疗推理数据集
规模: 32,682个问答对
特点:
- 基于结构化医学知识图谱(KG)构建
- 提供详细的逐步解释推理链
- 覆盖7个医疗数据集的问题

数据内容

数据生成方法:
- 使用临床问答对和知识图谱生成思维链推理
- 生成代码位于./src/data_generation
数据访问:
- 质量过滤后的监督微调(SFT)数据
- 访问地址: https://huggingface.co/datasets/UCSC-VLAA/MedReason

训练与评估

训练方法:
- 使用8-GPU进行监督微调(SFT)
- 提供基于Huatuo-o1-8B和DeepSeek-distilled-Llama-8B的训练脚本
评估结果:
- 在医疗基准测试中表现优异
- 提供案例研究和定量结果展示

引用信息

bibtex @misc{wu2025medreasonelicitingfactualmedical, title={MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs}, author={Juncheng Wu and Wenlong Deng and Xingxuan Li and Sheng Liu and Taomian Mi and Yifan Peng and Ziyang Xu and Yi Liu and Hyunjin Cho and Chang-In Choi and Yihan Cao and Hui Ren and Xiang Li and Xiaoxiao Li and Yuyin Zhou}, year={2025}, eprint={2504.00993}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.00993}, }

AI搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，高质量推理数据集的构建对提升大语言模型的临床决策能力至关重要。MedReason数据集通过创新的知识图谱驱动方法，将来自7个医疗数据集的临床问答对转化为逻辑严密的推理链。研究团队采用结构化处理流程，首先配置数据集路径和Azure API密钥，随后运行自动化脚本批量生成包含详细推理步骤的32,682个问答对，每个样本均经过严格的质量过滤以确保可靠性。

特点

该数据集最显著的特点在于其严谨的医学推理架构，每条数据均包含基于知识图谱构建的逐步解释，有效弥合了原始临床问题与最终答案之间的逻辑鸿沟。数据集覆盖广泛的医学主题，其规模和质量在同类资源中处于领先地位。特别值得注意的是，经该数据集微调的MedReason-8B模型在多项医疗基准测试中展现出最先进的性能表现，验证了数据集在提升模型可解释性方面的独特价值。

使用方法

使用者可通过Hugging Face平台直接获取预处理好的监督微调数据。对于高级应用，项目提供了完整的数据生成代码，支持用户自定义参数生成特定领域的推理链。模型微调过程采用分布式训练架构，支持在8GPU环境下基于DeepSpeed框架高效完成。评估阶段则推荐使用Sglang工具部署模型服务，配套的评估脚本支持灵活设置提示词严格度和生成长度，便于开展系统的性能测试与对比分析。

背景与挑战

背景概述

MedReason数据集由UCSC-VLAA团队于2025年推出，旨在通过知识图谱技术提升大型语言模型（LLMs）在医学领域的推理能力。该数据集整合了7个医学数据集中的32,682个问答对，通过结构化医学知识图谱将临床问题转化为逻辑推理链，为医学问题解决提供了详细且可解释的推理步骤。MedReason的推出标志着医学人工智能领域在可解释性和精确性方面的重要进展，其基于知识图谱的推理方法为医学自然语言处理任务设立了新标准。

当前挑战

MedReason数据集面临的挑战主要包括两方面：在领域问题层面，医学推理需要处理复杂的专业知识和动态更新的医学信息，确保推理步骤既准确又符合最新医学实践；在构建过程中，如何将非结构化的临床问答对有效转化为结构化的推理链，同时保持医学知识的完整性和逻辑连贯性，是技术实现上的主要难点。此外，数据集还需平衡不同医学子领域的覆盖范围，以支持广泛的医学推理任务。

常用场景

经典使用场景

在医学人工智能领域，MedReason数据集通过知识图谱构建的链式推理路径，为大型语言模型提供了结构化的医学推理训练框架。该数据集最经典的应用场景在于训练模型生成符合医学逻辑的逐步解释，例如在回答临床问题时，模型能够基于症状、诊断和治疗方案的关联知识，输出可追溯的推理过程。这种能力显著提升了模型在复杂医学问答中的可信度。

衍生相关工作

该数据集推动了多项医学推理研究的进展：基于MedReason的微调方法被应用于Llama-3.1和Mistral等主流架构，形成了MedReason-Llama/Mistral等衍生模型；其知识图谱增强的推理框架启发了后续工作如ClinicalCoT在电子病历分析中的应用；开源的数据生成管道则为BioGPT等生物医学模型提供了可扩展的推理标注方案，促进了整个医疗AI领域的可解释性研究。

数据集最近研究

最新研究方向

在医疗人工智能领域，MedReason数据集的推出为大型语言模型（LLMs）的医学推理能力提供了新的研究范式。该数据集通过结构化医学知识图谱（KG）将临床问答对转化为逻辑推理链，显著提升了模型在医学问题解决中的可解释性和准确性。当前研究聚焦于如何进一步优化知识图谱与语言模型的结合方式，以生成更加精确和详细的推理步骤。MedReason-8B模型在多个医学基准测试中表现出色，成为该领域的前沿研究方向。这一进展不仅推动了医学自然语言处理的发展，也为临床决策支持系统提供了新的技术路径。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Kaggle Stock Market Data

该数据集包含多个股票市场的历史数据，涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。

www.kaggle.com 收录

WeChat Social Network Dataset

该数据集包含了微信社交网络的用户关系数据，包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。

www.aminer.cn 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。