SMR-R1 Dataset

github2025-04-01 更新2025-04-02 收录

下载链接：

https://github.com/yingyukexiansheng/SMR-R1

下载链接

链接失效反馈

官方服务：

资源简介：

我们开源了一个医疗报告结构化数据评估集。该数据集具有以下特点：多样性和代表性：数据集包含各种类型的医疗报告，如病历、检查报告和诊断报告。它涵盖了一系列影像条件，包括透视、斜视图和光照强度的变化。此外，还包括非医疗报告相关的图像（如药盒）以评估模型过滤非医疗图像的能力。高质量标注：所有数据均由专业医疗人员标注和审核，确保准确性和可靠性。数据匿名化：为保护患者隐私，数据集中的所有信息均已匿名化，确保不包含个人身份信息。

We have open-sourced a structured medical report evaluation dataset. This dataset features the following attributes: 1. Diversity and representativeness: The dataset encompasses various types of medical reports, including medical records, examination reports and diagnostic reports. It covers a wide range of imaging conditions, such as perspective views, oblique views and variations in lighting intensity. Additionally, it includes non-medical report-related images (e.g., medicine boxes) to evaluate the model's ability to filter out non-medical images. 2. High-quality annotations: All data are annotated and reviewed by professional medical personnel to ensure accuracy and reliability. 3. Data anonymization: To protect patient privacy, all information within the dataset has been anonymized, ensuring that no personal identifiable information (PII) is present.

创建时间：

2025-03-26

原始信息汇总

SMR-R1数据集概述

数据集简介

名称: SMR-R1
目的: 提供医疗报告结构化信息提取的解决方案
内容:
- 脱敏医疗报告结构化数据评估集
- 医疗报告结构化提取模型
- 医疗报告结构化提取评估方法

数据集特点

多样性: 包含多种医疗报告类型（病历、检查报告、诊断报告等）
代表性: 涵盖多种影像条件（透视、斜位视图、光照强度变化）
数据质量: 由专业医疗人员标注和审核
隐私保护: 所有数据经过匿名化处理

模型信息

基础模型: Qwen2.5VL-7B
训练方法: GRPO算法强化训练
性能提升:
- 比原始Qwen2.5VL-7B模型提高15个百分点
- 比相同数据SFT训练高15个百分点
- 比Qwen2.5VL-72B模型高7个百分点

评估结果

模型	数据集	性能	说明
Qwen2.5-VL-7B-Instruct	-	54.71%	-
Qwen2.5-VL-72B-Instruct	-	62.89%	-
Qwen2.5-VL-7B-Instruct-sft	6k	55.21%	监督微调
SMR-R1-7B	6k	71.87%	强化学习

数据示例

json { "姓名": "", "性别": "", "年龄": "", "检查时间": "", "科室": "", "检查名称": "", "检查部位": "", "指标": [ { "项目名称": "免疫球蛋白G [IgG]", "结果": "12.10", "单位": "g/L", "参考范围": "5.28--21.9", "异常标记": "", "检测方法": "", "结果状态": "正常" } ] }

未来计划

[ ] 在基础模型SFT后进行强化学习
[ ] 不限制提取字段，实现医疗报告自动结构化
[ ] 优化奖励方法（将由大型模型确定）

引用信息

bib @misc{lijun2025SMR-R1, author = {Lijun Liu, Tao Zhang, Tao Zhang, Chong Li, Mingrui Wang, Chenglin Zhu, Mingan Lin, Zenan Zhou, Weipeng Chen}, title = {SMR-R1: Reinforcing Ability to Extract Structured Information From Medical Reports in Vision Language Models}, howpublished = {url{https://github.com/yingyukexiansheng/SMR-R1}}, note = {Accessed: 2025-03-26}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在医学影像与自然语言处理交叉领域，SMR-R1数据集的构建采用了严谨的医学脱敏流程。研究团队通过收集多模态医疗报告数据，涵盖病历、检验报告、诊断书等类型，并纳入不同成像条件（透视、斜位视图）及非医疗图像作为干扰项。专业医疗团队对原始数据进行双重标注与交叉验证，确保标签质量，所有敏感信息均经过不可逆脱敏处理，形成符合医疗伦理的结构化评估基准。

特点

该数据集展现出显著的临床实用价值，其核心优势在于多维度的数据覆盖与精细的标注体系。影像数据囊括了血液检查、免疫测定等常见检验类型，并刻意保留异常值标记和参考范围等关键临床指标。文本标注采用层级化JSON结构，精确捕捉医学实体间的语义关系。特别设计的干扰图像集成为评估模型鲁棒性的有效工具，为医疗信息结构化任务提供了全面的测试场景。

使用方法

研究人员可通过Hugging Face平台直接加载数据集，配套的评估脚本支持快速验证模型性能。使用前需配置环境变量指向本地数据目录，运行标准评估流程即可获取结构化提取的准确率指标。对于定制化研究，数据集支持与Qwen2.5VL等视觉语言模型的联合训练，其标注格式可直接用于强化学习奖励计算。注意事项包括严格遵守医疗数据使用协议，且不建议直接采用编辑距离作为奖励信号。

背景与挑战

背景概述

SMR-R1数据集由Lijun Liu等研究人员于2025年发布，旨在强化视觉语言模型从医学报告中提取结构化信息的能力。该数据集依托DeepSeek-R1模型的GRPO算法，通过对Qwen2.5VL-7B模型进行强化训练，在医学报告结构化提取任务上实现了显著性能提升。数据集包含多样化的医学报告类型，如病历、检查报告和诊断报告，覆盖多种影像条件，并由专业医疗人员完成高质量标注。该研究为医学信息处理领域提供了重要的基准数据和模型，推动了医疗文本结构化处理技术的发展。

当前挑战

医学报告结构化提取面临多重挑战：在领域问题层面，医学报告包含复杂的专业术语和多样化的表述方式，要求模型具备精准的语义理解能力；同时需有效区分医学与非医学图像内容。在构建过程中，数据匿名化处理虽保障了患者隐私，但可能导致部分关键信息丢失；此外，标注过程高度依赖专业医疗人员，成本高昂且易受主观因素影响。当前模型对数值和术语的识别误差会显著影响结果质量，而基于编辑距离的奖励机制尚不完善，亟待优化。

常用场景

经典使用场景

在医疗信息化快速发展的背景下，SMR-R1数据集为医学报告结构化信息提取提供了重要支持。该数据集广泛应用于医学影像报告的自动化处理，通过深度学习模型从复杂的医学报告中精准提取关键指标、诊断结果等结构化数据。数据集涵盖多种医学报告类型，包括检验报告、影像报告等，为模型训练提供了丰富的样本。

解决学术问题

SMR-R1数据集有效解决了医学自然语言处理领域的核心挑战。针对医学报告文本复杂、专业术语密集的特点，该数据集通过高质量标注和多样化样本，显著提升了模型在医学实体识别、关系抽取等任务上的性能。特别在跨模态理解方面，数据集帮助模型建立医学图像与文本的关联，推动医学人工智能研究向更精准的方向发展。

衍生相关工作

基于SMR-R1数据集，学术界已衍生出多项创新研究。Qwen2.5VL系列模型的强化训练方案显著提升了医学报告理解能力。在跨模态预训练领域，该数据集支持了多个医学视觉语言模型的开发。部分研究团队进一步扩展了数据应用范围，将其用于医学知识图谱构建和临床决策支持系统开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集