five

SMR-R1 Dataset

收藏
github2025-04-01 更新2025-04-02 收录
下载链接:
https://github.com/yingyukexiansheng/SMR-R1
下载链接
链接失效反馈
官方服务:
资源简介:
我们开源了一个医疗报告结构化数据评估集。该数据集具有以下特点:多样性和代表性:数据集包含各种类型的医疗报告,如病历、检查报告和诊断报告。它涵盖了一系列影像条件,包括透视、斜视图和光照强度的变化。此外,还包括非医疗报告相关的图像(如药盒)以评估模型过滤非医疗图像的能力。高质量标注:所有数据均由专业医疗人员标注和审核,确保准确性和可靠性。数据匿名化:为保护患者隐私,数据集中的所有信息均已匿名化,确保不包含个人身份信息。

We have open-sourced a structured medical report evaluation dataset. This dataset features the following attributes: 1. Diversity and representativeness: The dataset encompasses various types of medical reports, including medical records, examination reports and diagnostic reports. It covers a wide range of imaging conditions, such as perspective views, oblique views and variations in lighting intensity. Additionally, it includes non-medical report-related images (e.g., medicine boxes) to evaluate the model's ability to filter out non-medical images. 2. High-quality annotations: All data are annotated and reviewed by professional medical personnel to ensure accuracy and reliability. 3. Data anonymization: To protect patient privacy, all information within the dataset has been anonymized, ensuring that no personal identifiable information (PII) is present.
创建时间:
2025-03-26
原始信息汇总

SMR-R1数据集概述

数据集简介

  • 名称: SMR-R1
  • 目的: 提供医疗报告结构化信息提取的解决方案
  • 内容:
    • 脱敏医疗报告结构化数据评估集
    • 医疗报告结构化提取模型
    • 医疗报告结构化提取评估方法

数据集特点

  • 多样性: 包含多种医疗报告类型(病历、检查报告、诊断报告等)
  • 代表性: 涵盖多种影像条件(透视、斜位视图、光照强度变化)
  • 数据质量: 由专业医疗人员标注和审核
  • 隐私保护: 所有数据经过匿名化处理

模型信息

  • 基础模型: Qwen2.5VL-7B
  • 训练方法: GRPO算法强化训练
  • 性能提升:
    • 比原始Qwen2.5VL-7B模型提高15个百分点
    • 比相同数据SFT训练高15个百分点
    • 比Qwen2.5VL-72B模型高7个百分点

评估结果

模型 数据集 性能 说明
Qwen2.5-VL-7B-Instruct - 54.71% -
Qwen2.5-VL-72B-Instruct - 62.89% -
Qwen2.5-VL-7B-Instruct-sft 6k 55.21% 监督微调
SMR-R1-7B 6k 71.87% 强化学习

数据示例

json { "姓名": "", "性别": "", "年龄": "", "检查时间": "", "科室": "", "检查名称": "", "检查部位": "", "指标": [ { "项目名称": "免疫球蛋白G [IgG]", "结果": "12.10", "单位": "g/L", "参考范围": "5.28--21.9", "异常标记": "", "检测方法": "", "结果状态": "正常" } ] }

未来计划

  • [ ] 在基础模型SFT后进行强化学习
  • [ ] 不限制提取字段,实现医疗报告自动结构化
  • [ ] 优化奖励方法(将由大型模型确定)

引用信息

bib @misc{lijun2025SMR-R1, author = {Lijun Liu, Tao Zhang, Tao Zhang, Chong Li, Mingrui Wang, Chenglin Zhu, Mingan Lin, Zenan Zhou, Weipeng Chen}, title = {SMR-R1: Reinforcing Ability to Extract Structured Information From Medical Reports in Vision Language Models}, howpublished = {url{https://github.com/yingyukexiansheng/SMR-R1}}, note = {Accessed: 2025-03-26}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像与自然语言处理交叉领域,SMR-R1数据集的构建采用了严谨的医学脱敏流程。研究团队通过收集多模态医疗报告数据,涵盖病历、检验报告、诊断书等类型,并纳入不同成像条件(透视、斜位视图)及非医疗图像作为干扰项。专业医疗团队对原始数据进行双重标注与交叉验证,确保标签质量,所有敏感信息均经过不可逆脱敏处理,形成符合医疗伦理的结构化评估基准。
特点
该数据集展现出显著的临床实用价值,其核心优势在于多维度的数据覆盖与精细的标注体系。影像数据囊括了血液检查、免疫测定等常见检验类型,并刻意保留异常值标记和参考范围等关键临床指标。文本标注采用层级化JSON结构,精确捕捉医学实体间的语义关系。特别设计的干扰图像集成为评估模型鲁棒性的有效工具,为医疗信息结构化任务提供了全面的测试场景。
使用方法
研究人员可通过Hugging Face平台直接加载数据集,配套的评估脚本支持快速验证模型性能。使用前需配置环境变量指向本地数据目录,运行标准评估流程即可获取结构化提取的准确率指标。对于定制化研究,数据集支持与Qwen2.5VL等视觉语言模型的联合训练,其标注格式可直接用于强化学习奖励计算。注意事项包括严格遵守医疗数据使用协议,且不建议直接采用编辑距离作为奖励信号。
背景与挑战
背景概述
SMR-R1数据集由Lijun Liu等研究人员于2025年发布,旨在强化视觉语言模型从医学报告中提取结构化信息的能力。该数据集依托DeepSeek-R1模型的GRPO算法,通过对Qwen2.5VL-7B模型进行强化训练,在医学报告结构化提取任务上实现了显著性能提升。数据集包含多样化的医学报告类型,如病历、检查报告和诊断报告,覆盖多种影像条件,并由专业医疗人员完成高质量标注。该研究为医学信息处理领域提供了重要的基准数据和模型,推动了医疗文本结构化处理技术的发展。
当前挑战
医学报告结构化提取面临多重挑战:在领域问题层面,医学报告包含复杂的专业术语和多样化的表述方式,要求模型具备精准的语义理解能力;同时需有效区分医学与非医学图像内容。在构建过程中,数据匿名化处理虽保障了患者隐私,但可能导致部分关键信息丢失;此外,标注过程高度依赖专业医疗人员,成本高昂且易受主观因素影响。当前模型对数值和术语的识别误差会显著影响结果质量,而基于编辑距离的奖励机制尚不完善,亟待优化。
常用场景
经典使用场景
在医疗信息化快速发展的背景下,SMR-R1数据集为医学报告结构化信息提取提供了重要支持。该数据集广泛应用于医学影像报告的自动化处理,通过深度学习模型从复杂的医学报告中精准提取关键指标、诊断结果等结构化数据。数据集涵盖多种医学报告类型,包括检验报告、影像报告等,为模型训练提供了丰富的样本。
解决学术问题
SMR-R1数据集有效解决了医学自然语言处理领域的核心挑战。针对医学报告文本复杂、专业术语密集的特点,该数据集通过高质量标注和多样化样本,显著提升了模型在医学实体识别、关系抽取等任务上的性能。特别在跨模态理解方面,数据集帮助模型建立医学图像与文本的关联,推动医学人工智能研究向更精准的方向发展。
衍生相关工作
基于SMR-R1数据集,学术界已衍生出多项创新研究。Qwen2.5VL系列模型的强化训练方案显著提升了医学报告理解能力。在跨模态预训练领域,该数据集支持了多个医学视觉语言模型的开发。部分研究团队进一步扩展了数据应用范围,将其用于医学知识图谱构建和临床决策支持系统开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作