MedReason|医学推理数据集|知识图谱数据集
收藏MedReason数据集概述
数据集简介
- 名称: MedReason
- 类型: 医疗推理数据集
- 规模: 32,682个问答对
- 特点:
- 基于结构化医学知识图谱(KG)构建
- 提供详细的逐步解释推理链
- 覆盖7个医疗数据集的问题
数据内容
- 数据生成方法:
- 使用临床问答对和知识图谱生成思维链推理
- 生成代码位于
./src/data_generation
- 数据访问:
- 质量过滤后的监督微调(SFT)数据
- 访问地址: https://huggingface.co/datasets/UCSC-VLAA/MedReason
相关模型
- MedReason-8B:
- 基础模型: HuatuoGPT-o1-8B
- 访问地址: https://huggingface.co/UCSC-VLAA/MedReason-8B
- MedReason-Llama:
- 基础模型: Llama-3.1-8B-Instruct
- 访问地址: https://huggingface.co/UCSC-VLAA/MedReason-Llama
- MedReason-Mistral:
- 基础模型: Mistral-7B-Instruct-v0.2
- 访问地址: https://huggingface.co/UCSC-VLAA/MedReason-Mistral
训练与评估
- 训练方法:
- 使用8-GPU进行监督微调(SFT)
- 提供基于Huatuo-o1-8B和DeepSeek-distilled-Llama-8B的训练脚本
- 评估结果:
- 在医疗基准测试中表现优异
- 提供案例研究和定量结果展示
引用信息
bibtex @misc{wu2025medreasonelicitingfactualmedical, title={MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs}, author={Juncheng Wu and Wenlong Deng and Xingxuan Li and Sheng Liu and Taomian Mi and Yifan Peng and Ziyang Xu and Yi Liu and Hyunjin Cho and Chang-In Choi and Yihan Cao and Hui Ren and Xiang Li and Xiaoxiao Li and Yuyin Zhou}, year={2025}, eprint={2504.00993}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.00993}, }

GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Kaggle Stock Market Data
该数据集包含多个股票市场的历史数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集还包括了股票的代码、日期和市场名称等基本信息。
www.kaggle.com 收录
WeChat Social Network Dataset
该数据集包含了微信社交网络的用户关系数据,包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。
www.aminer.cn 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录