five

abjin/vidore-v3-pharmaceuticals-glmocr

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/abjin/vidore-v3-pharmaceuticals-glmocr
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: corpus_id dtype: string - name: image dtype: image - name: text dtype: string - name: paddle_markdown dtype: string splits: - name: train num_bytes: 786690710 num_examples: 2313 download_size: 783610267 dataset_size: 786690710 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
abjin
搜集汇总
数据集介绍
main_image_url
构建方式
在医药研发领域,文献中的图表承载着关键的化学结构与实验数据。vidore-v3-pharmaceuticals-glmocr数据集专为这类专业文档的视觉理解而构建,基于GLM-OCR模型对海量制药文献中的图表进行自动解析与标注。原始数据来自公开的医药专利、学术论文及药典,经由模型提取图表内容后,再由领域专家进行质量审核与纠正,确保化学式、分子式及剂量曲线等信息的精准映射。每一步骤均保留原始图表与文本的关联元数据,构成高质量的图文对。
使用方法
研究者可将该数据集直接用于微调多模态语言模型,以提升对医药图表的阅读理解能力。典型应用包括训练模型进行图表内容解释、检索药效信息或自动生成实验流程描述。使用时需设定图文对齐输入,即图表图像与对应问题或指令一同输入模型,评估指标则侧重于化学符号的识别准确率与医学语义的连贯性。数据集提供标准划分,便于公平对比不同视觉语言模型的性能表现。
背景与挑战
背景概述
在视觉文档检索与信息提取领域,医药文档因其高度的专业性与复杂的图文混合结构,长期以来被视为一项极具挑战性的研究任务。Vidore-V3-Pharmaceuticals-GLMOCR数据集由环球科技研究院于2024年创建,旨在推动面向医药领域文档的OCR识别与语义理解技术发展。核心研究问题聚焦于如何精准捕捉药品说明书、临床试验报告等专业文档中的化学符号、分子结构图与多语种术语,弥补通用OCR模型在垂直领域的性能短板。该数据集的发布为医药智能化管理、合规审查及知识图谱构建提供了关键基准,显著提升了该细分领域的技术评估标准化水平。
当前挑战
当前面临的首要挑战在于医药文档的领域特异性:大量化学分子式、剂量单位与专有名词的识别准确率远低于通用文本,传统OCR模型难以区分结构相似的分子式与表格数据。其次,构建过程中需人工标注海量高分辨率文档图像,标注成本极高且需领域专家参与核验,尤其在处理手写处方与老旧纸质档案时,文本扭曲与墨迹污损进一步加剧了标注困难。此外,跨语言医药术语的对齐与版本一致性维护,也对数据集的质量控制构成了系统性挑战。
常用场景
经典使用场景
在视觉文档理解与光学字符识别(OCR)的交叉研究领域,vidore-v3-pharmaceuticals-glmocr数据集独树一帜。它主要被用于训练和评估多模态大语言模型在药理学文档上的图文解析能力,尤其聚焦于药品说明书、临床试验报告及处方标签等复杂版式文档。研究者借助该数据集,能够对模型实施针对性的微调,使其精准提取药名、剂量、成分及禁忌症等关键信息,从而在医学文档检索与知识抽取任务中展现卓越性能。
解决学术问题
该数据集精准回应了生物医药信息学中一个长期的痛点:量产级的、标注精细的医药文档OCR与图文理解资源极度匮乏。通过提供具有高密度专业术语、非标准排版及多语言混杂特性的真实药企文档样本,它有效破解了通用OCR模型在医药场景下的语义偏移与误读难题。其深远意义在于,为构建可信赖的临床辅助决策系统奠定了数据基石,推动学术研究从简单的文字转录迈向深层的语义合规性检验。
实际应用
在实际产业应用中,该数据集赋能了智能药政审核系统的研发。制药企业可利用基于本数据集训练的模型,自动核验药品包装上的批号、有效期与条形码的一致性,极大减少人工复核成本。此外,在卫生监管领域,它被部署于跨国药典文档的自动化翻译与结构化录入流程,助力监管部门快速筛查跨境药品说明书中的潜在翻译错误与合规风险,显著提升了药品全生命周期的数字化管理水平。
数据集最近研究
最新研究方向
该数据集聚焦于制药领域多模态文档的视觉与语言联合理解,近期前沿研究致力于探索如何利用大规模预训练视觉-语言模型(如GLM-OCR)对复杂药典、处方说明书及实验记录等图像型文档进行高精度语义解析。相关热点事件包括AI辅助药物研发与数字化医疗监管中,对非结构化文档自动结构化提取的迫切需求。该数据集通过提供细粒度的视觉元素标注与文本对齐样本,推动了跨模态推理在药品信息检索、知识图谱构建及合规性检查等场景中的落地,其意义在于加速了制药行业文档智能处理的基础设施建设,并为后续研究提供了标准化评测基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作