five

qwen3.5-vision-ocr-v2

收藏
Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/Mustafaege/qwen3.5-vision-ocr-v2
下载链接
链接失效反馈
官方服务:
资源简介:
Qwen3.5 Vision OCR数据集v2是一个用于Qwen3.5-VL模型微调的扩展LaTeX OCR数据集,结合了unsloth/LaTeX_OCR(1%样本)和完整的linxy/LaTeX_OCR数据集。该数据集提供了约145K个样本,覆盖了印刷和手写公式,采用Qwen3-VL多模态消息格式。数据集分为约130K训练样本和15K测试样本,适用于图像到LaTeX公式的转换任务。数据字段包括多模态对话消息,其中用户输入为图像和指令,助手输出为LaTeX公式。数据集支持多种公式类型,包括分数、求和、积分、矩阵等,并提供了详细的示例和使用说明。
创建时间:
2026-03-07
原始信息汇总

Qwen3.5 Vision OCR Dataset v2 数据集概述

基本信息

  • 数据集名称: Qwen3.5 Vision OCR Dataset v2
  • 许可证: Apache 2.0
  • 语言: 英语
  • 模态: 图像、文本
  • 任务类别: 图像到文本
  • 标签: OCR、LaTeX、数学、视觉、多模态、图像到文本、公式识别、手写体、印刷体、SFT、qwen3、qwen3.5、qwen-vl、qwen2.5-vl、微调、开源、扩展数据集
  • 规模类别: 100K < n < 1M
  • 注释创建者: 机器生成
  • 语言创建者: 发现

数据集摘要

  • 总样本数: 约145K
  • 训练集样本数: 约130K
  • 测试集样本数: 约15K
  • 数据来源: unsloth/LaTeX_OCR + linxy/LaTeX_OCR(完整版)
  • 数据格式: Qwen3-VL 多模态消息格式
  • 核心任务: 图像 → LaTeX 公式

版本对比 (v1 vs v2)

版本 样本数 覆盖范围 来源
v1 68,686 印刷体公式(1%样本) unsloth/LaTeX_OCR
v2 (当前) ~145K 印刷体 + 完整覆盖 + linxy/LaTeX_OCR 完整数据集

v2 版本更新内容

  • 数据量翻倍: 约145K vs 约68K 样本
  • 完整覆盖: 使用完整的 linxy/LaTeX_OCR 数据集(非子集)
  • 多样性增强: 涵盖更广泛的公式类型和复杂度
  • 泛化能力提升: 更多独特样本降低了过拟合风险

数据集结构

数据字段

字段 类型 描述
messages list[dict] 多模态对话:用户(图像 + 指令)+ 助手(LaTeX)

消息模式

messages[0] = {"role": "user", "content": [ {"type": "text", "text": "Write the LaTeX representation for this image."}, {"type": "image", "image": <PIL.Image>} ]} messages[1] = {"role": "assistant", "content": [ {"type": "text", "text": "<latex_formula>"} ]}

数据来源

数据集 配置 样本数 公式类型 备注
unsloth/LaTeX_OCR default 68,686 印刷体 linxy 完整数据集的 1% 样本
linxy/LaTeX_OCR full ~76,318 印刷体 完整的印刷文本数据集

原始来源: LinXueyuanStdio/LaTeX_OCR — 数据来自 Zenodo、CROHME 和自定义数据集。通过 LaTeX AST 解析进行验证。

数据格式示例

json { "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Write the LaTeX representation for this image." }, { "type": "image", "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=320x64>" } ] }, { "role": "assistant", "content": [ { "type": "text", "text": "\int_{0}^{\infty} \frac{x^{s-1}}{e^{x}-1} dx = \Gamma(s) \zeta(s)" } ] } ] }

公式示例

图像描述 LaTeX 输出
简单分数 frac{a}{b}
求和 sum_{i=1}^{n} x_i
带极限的积分 int_{-infty}^{infty} e^{-x^2} dx = sqrt{pi}
矩阵 egin{pmatrix} a & b \ c & d end{pmatrix}
嵌套分数 `frac{d}{dx}left(frac{f(x)}{g(x)}
ight)`

使用方式

python from datasets import load_dataset

dataset = load_dataset("Mustafaege/qwen3.5-vision-ocr-v2")

访问图像和 LaTeX

sample = dataset[train][0] image = sample[messages][0][content][1][image] # PIL.Image latex = sample[messages][1][content][0][text] # LaTeX 字符串 print(f"LaTeX: {latex}")

相关数据集

版本 样本数 链接
v1 68,686 Mustafaege/qwen3.5-vision-ocr-v1
v2 (当前) ~145K Mustafaege/qwen3.5-vision-ocr-v2

许可证

Apache 2.0 — 详情请参阅 LICENSE

搜集汇总
数据集介绍
构建方式
在光学字符识别领域,特别是针对数学公式的LaTeX表示,数据集的构建往往依赖于高质量、多样化的图像与文本配对。本数据集通过整合两个现有资源——unsloth/LaTeX_OCR的1%样本以及linxy/LaTeX_OCR的完整版本,实现了数据规模的显著扩展。构建过程遵循严格的格式转换,将原始图像与对应的LaTeX公式统一封装为Qwen3-VL多模态消息格式,确保了数据结构的规范性与兼容性,为后续的模型微调奠定了坚实基础。
特点
该数据集的核心特点在于其规模与多样性的双重提升。相较于前代版本,样本总量扩充至约14.5万条,实现了数据覆盖范围的翻倍增长。它不仅包含了印刷体数学公式,还融入了更为丰富的手写体样本,从而在公式类型与复杂度上呈现出更广泛的分布。这种增强的多样性有助于降低模型过拟合的风险,提升其在未见数据上的泛化能力,为视觉-语言模型的鲁棒性训练提供了优质素材。
使用方法
为高效利用该数据集进行模型训练,用户可通过Hugging Face的`datasets`库直接加载。数据集已预分割为训练集与测试集,便于开展监督学习。每条数据均以结构化的消息列表形式呈现,其中用户消息包含引导文本与公式图像,助手消息则提供标准的LaTeX字符串。开发者可便捷地提取图像与文本标签,并配合如Unsloth等高效训练框架,对Qwen3.5-VL等视觉语言模型进行指令微调,以优化其从图像到LaTeX的转换性能。
背景与挑战
背景概述
在人工智能与多模态学习领域,光学字符识别技术,特别是针对数学公式的识别,长期面临复杂符号与结构解析的挑战。Qwen3.5 Vision OCR Dataset v2数据集由Mustafaege团队构建,旨在为Qwen3.5-VL等视觉语言模型提供精细调优支持。该数据集整合了unsloth/LaTeX_OCR与linxy/LaTeX_OCR两个核心资源,覆盖约145,000个样本,包含印刷与手写数学公式的图像至LaTeX转换任务。其设计遵循Qwen3-VL多模态消息格式,显著扩展了数据规模与多样性,推动了数学公式识别在学术文档数字化、教育技术等场景的应用进展。
当前挑战
数学公式识别领域固有的挑战在于准确解析嵌套结构、特殊符号及手写变体,同时需保持LaTeX输出的语义完整性。该数据集构建过程中,面临数据源整合与格式统一的复杂性,需将异构的印刷与手写公式图像转化为标准化的多模态对话结构。此外,确保LaTeX语法正确性及图像与文本对齐的精确性,亦是数据质量控制的关键难点。这些挑战共同指向模型泛化能力与跨场景适应性的核心研究问题。
常用场景
经典使用场景
在光学字符识别与多模态人工智能领域,Qwen3.5-vision-ocr-v2数据集为视觉-语言模型的微调提供了关键支持。其经典使用场景集中于将包含数学公式的图像转换为LaTeX代码,涵盖了从简单分数到复杂积分、矩阵等多种数学表达式。该数据集采用Qwen3-VL多模态消息格式,通过用户指令与图像输入、助手LaTeX输出的对话结构,模拟真实交互场景,为模型训练提供了结构化、标准化的数据基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于多模态模型的优化与扩展。基于其前身版本,研究者开发了针对Qwen-VL系列模型的微调框架,如结合Unsloth高效训练库的视觉层与语言层联合调优方法。相关研究进一步探索了公式识别的跨域泛化能力,例如将模型应用于化学方程式或物理图表的识别。这些工作不仅提升了公式OCR的准确率,也推动了开源多模态模型在专业领域的实用化进程。
数据集最近研究
最新研究方向
在光学字符识别与多模态人工智能交叉领域,Qwen3.5 Vision OCR Dataset v2的推出标志着数学公式识别技术正迈向更高阶的泛化能力探索。该数据集通过整合unsloath/LaTeX_OCR与完整的linxy/LaTeX_OCR资源,将样本规模扩展至约14.5万条,并涵盖印刷体与手写体公式,为视觉-语言模型提供了更丰富的训练素材。当前研究前沿聚焦于利用此类增强数据集优化多模态大模型在复杂数学场景下的符号理解与生成能力,特别是在学术文献数字化、智能教育辅助以及科学计算自动化等热点应用中,其高质量的结构化标注数据正推动着开放源代码模型在细粒度视觉推理任务上的性能突破。这一进展不仅降低了模型过拟合风险,更为跨模态表示学习提供了新的基准,对促进科学知识的高效获取与传播具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作