qwen3.5-vision-ocr-v2

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/Mustafaege/qwen3.5-vision-ocr-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Qwen3.5 Vision OCR数据集v2是一个用于Qwen3.5-VL模型微调的扩展LaTeX OCR数据集，结合了unsloth/LaTeX_OCR（1%样本）和完整的linxy/LaTeX_OCR数据集。该数据集提供了约145K个样本，覆盖了印刷和手写公式，采用Qwen3-VL多模态消息格式。数据集分为约130K训练样本和15K测试样本，适用于图像到LaTeX公式的转换任务。数据字段包括多模态对话消息，其中用户输入为图像和指令，助手输出为LaTeX公式。数据集支持多种公式类型，包括分数、求和、积分、矩阵等，并提供了详细的示例和使用说明。

创建时间：

2026-03-07

原始信息汇总

Qwen3.5 Vision OCR Dataset v2 数据集概述

基本信息

数据集名称: Qwen3.5 Vision OCR Dataset v2
许可证: Apache 2.0
语言: 英语
模态: 图像、文本
任务类别: 图像到文本
标签: OCR、LaTeX、数学、视觉、多模态、图像到文本、公式识别、手写体、印刷体、SFT、qwen3、qwen3.5、qwen-vl、qwen2.5-vl、微调、开源、扩展数据集
规模类别: 100K < n < 1M
注释创建者: 机器生成
语言创建者: 发现

数据集摘要

总样本数: 约145K
训练集样本数: 约130K
测试集样本数: 约15K
数据来源: unsloth/LaTeX_OCR + linxy/LaTeX_OCR（完整版）
数据格式: Qwen3-VL 多模态消息格式
核心任务: 图像 → LaTeX 公式

版本对比 (v1 vs v2)

版本	样本数	覆盖范围	来源
v1	68,686	印刷体公式（1%样本）	unsloth/LaTeX_OCR
v2 (当前)	~145K	印刷体 + 完整覆盖	+ linxy/LaTeX_OCR 完整数据集

v2 版本更新内容

数据量翻倍: 约145K vs 约68K 样本
完整覆盖: 使用完整的 linxy/LaTeX_OCR 数据集（非子集）
多样性增强: 涵盖更广泛的公式类型和复杂度
泛化能力提升: 更多独特样本降低了过拟合风险

数据集结构

数据字段

字段	类型	描述
`messages`	`list[dict]`	多模态对话：用户（图像 + 指令）+ 助手（LaTeX）

消息模式

messages[0] = {"role": "user", "content": [ {"type": "text", "text": "Write the LaTeX representation for this image."}, {"type": "image", "image": <PIL.Image>} ]} messages[1] = {"role": "assistant", "content": [ {"type": "text", "text": "<latex_formula>"} ]}

数据来源

数据集	配置	样本数	公式类型	备注
unsloth/LaTeX_OCR	default	68,686	印刷体	linxy 完整数据集的 1% 样本
linxy/LaTeX_OCR	full	~76,318	印刷体	完整的印刷文本数据集

原始来源: LinXueyuanStdio/LaTeX_OCR — 数据来自 Zenodo、CROHME 和自定义数据集。通过 LaTeX AST 解析进行验证。

数据格式示例

json { "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Write the LaTeX representation for this image." }, { "type": "image", "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=320x64>" } ] }, { "role": "assistant", "content": [ { "type": "text", "text": "\int_{0}^{\infty} \frac{x^{s-1}}{e^{x}-1} dx = \Gamma(s) \zeta(s)" } ] } ] }

公式示例

图像描述	LaTeX 输出
简单分数	`frac{a}{b}`
求和	`sum_{i=1}^{n} x_i`
带极限的积分	`int_{-infty}^{infty} e^{-x^2} dx = sqrt{pi}`
矩阵	`egin{pmatrix} a & b \ c & d end{pmatrix}`
嵌套分数	`frac{d}{dx}left(frac{f(x)}{g(x)}
ight)`

使用方式

python from datasets import load_dataset

dataset = load_dataset("Mustafaege/qwen3.5-vision-ocr-v2")

访问图像和 LaTeX

sample = dataset[train][0] image = sample[messages][0][content][1][image] # PIL.Image latex = sample[messages][1][content][0][text] # LaTeX 字符串 print(f"LaTeX: {latex}")

许可证

Apache 2.0 — 详情请参阅 LICENSE。

搜集汇总

数据集介绍

构建方式

在光学字符识别领域，特别是针对数学公式的LaTeX表示，数据集的构建往往依赖于高质量、多样化的图像与文本配对。本数据集通过整合两个现有资源——unsloth/LaTeX_OCR的1%样本以及linxy/LaTeX_OCR的完整版本，实现了数据规模的显著扩展。构建过程遵循严格的格式转换，将原始图像与对应的LaTeX公式统一封装为Qwen3-VL多模态消息格式，确保了数据结构的规范性与兼容性，为后续的模型微调奠定了坚实基础。

特点

该数据集的核心特点在于其规模与多样性的双重提升。相较于前代版本，样本总量扩充至约14.5万条，实现了数据覆盖范围的翻倍增长。它不仅包含了印刷体数学公式，还融入了更为丰富的手写体样本，从而在公式类型与复杂度上呈现出更广泛的分布。这种增强的多样性有助于降低模型过拟合的风险，提升其在未见数据上的泛化能力，为视觉-语言模型的鲁棒性训练提供了优质素材。

使用方法

为高效利用该数据集进行模型训练，用户可通过Hugging Face的`datasets`库直接加载。数据集已预分割为训练集与测试集，便于开展监督学习。每条数据均以结构化的消息列表形式呈现，其中用户消息包含引导文本与公式图像，助手消息则提供标准的LaTeX字符串。开发者可便捷地提取图像与文本标签，并配合如Unsloth等高效训练框架，对Qwen3.5-VL等视觉语言模型进行指令微调，以优化其从图像到LaTeX的转换性能。

背景与挑战

背景概述

在人工智能与多模态学习领域，光学字符识别技术，特别是针对数学公式的识别，长期面临复杂符号与结构解析的挑战。Qwen3.5 Vision OCR Dataset v2数据集由Mustafaege团队构建，旨在为Qwen3.5-VL等视觉语言模型提供精细调优支持。该数据集整合了unsloth/LaTeX_OCR与linxy/LaTeX_OCR两个核心资源，覆盖约145,000个样本，包含印刷与手写数学公式的图像至LaTeX转换任务。其设计遵循Qwen3-VL多模态消息格式，显著扩展了数据规模与多样性，推动了数学公式识别在学术文档数字化、教育技术等场景的应用进展。

当前挑战

数学公式识别领域固有的挑战在于准确解析嵌套结构、特殊符号及手写变体，同时需保持LaTeX输出的语义完整性。该数据集构建过程中，面临数据源整合与格式统一的复杂性，需将异构的印刷与手写公式图像转化为标准化的多模态对话结构。此外，确保LaTeX语法正确性及图像与文本对齐的精确性，亦是数据质量控制的关键难点。这些挑战共同指向模型泛化能力与跨场景适应性的核心研究问题。

常用场景

经典使用场景

在光学字符识别与多模态人工智能领域，Qwen3.5-vision-ocr-v2数据集为视觉-语言模型的微调提供了关键支持。其经典使用场景集中于将包含数学公式的图像转换为LaTeX代码，涵盖了从简单分数到复杂积分、矩阵等多种数学表达式。该数据集采用Qwen3-VL多模态消息格式，通过用户指令与图像输入、助手LaTeX输出的对话结构，模拟真实交互场景，为模型训练提供了结构化、标准化的数据基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于多模态模型的优化与扩展。基于其前身版本，研究者开发了针对Qwen-VL系列模型的微调框架，如结合Unsloth高效训练库的视觉层与语言层联合调优方法。相关研究进一步探索了公式识别的跨域泛化能力，例如将模型应用于化学方程式或物理图表的识别。这些工作不仅提升了公式OCR的准确率，也推动了开源多模态模型在专业领域的实用化进程。

数据集最近研究