medical-prescriptions

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/medical-prescriptions

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是基于医疗处方数据改编的，包含了查询、图像、图像文件名和文本描述等信息。文本描述是从图像中提取的OCR文本。数据集被划分为测试集，用于ViDoRe基准测试。

创建时间：

2025-06-10

原始信息汇总

Medical Prescriptions Dataset 概述

数据集基本信息

来源：基于medical-prescriptions dataset改造
用途：专为ViDoRe基准测试设计
字段说明：
- query：字符串类型
- image：图像类型
- image_filename：字符串类型
- text_description：通过EasyOCR从图像提取的OCR文本（字符串类型）

数据统计

测试集：
- 样本量：100条
- 数据大小：21.51MB
- 下载大小：20.8MB
存储格式：分片文件（data/test-*）

法律声明

版权归属：文档原始作者保留所有权利
使用限制：仅限研究与教育用途
侵权处理：发现隐私/敏感内容或版权问题可联系"support-data (at) jina.ai"
数据免责：不主动收集个人/敏感/私有信息

搜集汇总

数据集介绍

构建方式

在医疗文档处理领域，medical-prescriptions数据集通过结构化重构技术实现了处方数据的标准化整合。该数据集基于原始医疗处方资料，采用测试集重构策略，运用EasyOCR光学字符识别技术从处方图像中提取关键文本信息，形成包含查询词、图像文件、图像名称及文本描述的多模态数据架构。数据采集过程严格遵循非侵入性原则，仅处理已公开的医疗文档图像，确保来源的合法性和研究适用性。

特点

该数据集呈现出鲜明的多模态特性，将视觉图像与文本信息有机融合。每项数据记录包含原始处方扫描图像及其对应的OCR识别文本，通过query-image-text三元组结构实现跨模态关联。测试集精心筛选100个具有代表性的医疗处方样本，数据体积控制在21.5MB范围内，在保证研究可用性的同时优化存储效率。图像文件与文本描述的精确对应关系，为医疗文档理解任务提供了可靠的基准测试素材。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集，其标准化的字段命名体系兼容主流多模态分析框架。典型应用场景包括医疗文本识别算法评估、处方图像分类模型训练等计算机视觉与自然语言处理交叉研究。使用时应遵守数据免责声明，若发现涉及隐私或版权问题，需及时联系维护团队处理。数据集默认配置提供测试集分割，用户可通过指定split参数快速获取标准化格式的数据迭代器。

背景与挑战

背景概述

Medical-prescriptions数据集作为医疗处方识别领域的重要资源，由Technoculture研究团队构建并发布于HuggingFace平台。该数据集聚焦于医疗文档的智能化处理，核心研究问题在于通过多模态数据（图像与文本）实现处方信息的自动识别与结构化提取。其测试集经过专门重构以适应ViDoRe评测基准的需求，采用EasyOCR技术实现处方图像的文本提取，为医疗自然语言处理与计算机视觉的交叉研究提供了关键数据支撑。该数据集的建立推动了电子病历自动化处理技术的发展，在提升医疗信息系统的智能化水平方面具有显著影响力。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，医疗处方存在手写体识别困难、专业术语歧义性以及多语言混合等特性，对OCR准确率和语义理解模型提出极高要求；在构建过程层面，需克服医疗数据隐私保护与脱敏处理的合规性问题，同时解决图像质量参差不齐、版面结构复杂导致的文本定位难题。原始文档的版权归属问题亦要求数据集构建者建立严格的内容审核与侵权响应机制，这些因素共同构成了该数据集开发与应用过程中的主要障碍。

常用场景

经典使用场景

在医疗信息化与人工智能交叉领域，medical-prescriptions数据集为处方识别任务提供了标准化的测试基准。其独特的图像-文本对结构支持端到端的处方内容提取研究，研究者通过该数据集可验证OCR模型对潦草手写体、特殊医学符号的识别鲁棒性。数据集包含的100组测试样本覆盖了典型处方模板，成为评估多模态模型医疗场景适应性的重要工具。

解决学术问题

该数据集有效解决了医疗文本识别中的关键学术挑战。通过提供真实场景的处方图像与对应OCR文本，研究者能够系统分析字体变形、药物名称缩写、剂量单位混淆等识别难点。其标注体系支持对处方结构化解析算法的定量评估，为改善医疗文档数字化过程中的信息丢失问题提供了可量化的研究基础，推动了临床自然语言处理技术的精度边界。

衍生相关工作

基于该数据集衍生的ViDoRe评测框架已成为多模态医疗文档分析的基准平台。多项经典工作如PrescriptionNet和MedOCR通过在此数据集上的对比实验，提出了针对医疗文本的注意力机制改进方案。这些研究不仅优化了处方识别准确率，还催生了医疗专用OCR模型的预训练范式，影响了后续医疗AI产品的开发路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集