qwen3.5-vision-ocr-v1
收藏Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/Mustafaege/qwen3.5-vision-ocr-v1
下载链接
链接失效反馈官方服务:
资源简介:
Qwen3.5 Vision OCR Dataset v1 是一个用于 Qwen3.5-VL 模型微调的 LaTeX OCR 数据集,基于 linxy/LaTeX_OCR 数据集的 1% 样本构建。数据集包含 68,686 个样本,其中训练集 61,817 个,测试集 6,869 个。每个样本由图像-LaTeX 对组成,并转换为 Qwen3-VL 的多模态消息格式。数据集适用于图像到 LaTeX 公式的转换任务,例如将数学公式的图像转换为对应的 LaTeX 源代码。数据经过 LaTeX 抽象语法树(AST)验证,确保 LaTeX 的有效性和可渲染性。图像分辨率通常在 200x50 到 600x100 像素之间。数据集采用 Apache 2.0 许可证发布。
创建时间:
2026-03-04
原始信息汇总
Qwen3.5 Vision OCR Dataset v1 数据集概述
数据集基本信息
- 数据集名称:Qwen3.5 Vision OCR Dataset v1
- 主要语言:英语 (en)
- 许可证:Apache 2.0
- 模态:图像、文本
- 任务类别:图像到文本
- 标签:ocr, latex, mathematics, vision, multimodal, image-to-text, formula-recognition, sft, qwen3, qwen3.5, qwen-vl, qwen2.5-vl, fine-tuning, open-source
- 规模类别:10K<n<100K
- 标注创建者:机器生成
- 语言创建者:发现
数据集摘要
- 总样本数:68,686
- 训练集样本数:61,817
- 测试集样本数:6,869
- 数据来源:unsloth/LaTeX_OCR(linxy/LaTeX_OCR 的 1% 样本)
- 数据格式:Qwen3-VL 多模态消息格式
- 核心任务:图像 → LaTeX 公式
数据集结构
数据字段
- 字段名:
messages - 类型:
list[dict] - 描述:多模态对话,包含用户(图像+指令)和助手(LaTeX)的消息。
消息模式
messages[0] = {"role": "user", "content": [ {"type": "text", "text": "Write the LaTeX representation for this image."}, {"type": "image", "image": <PIL.Image>} ]} messages[1] = {"role": "assistant", "content": [ {"type": "text", "text": "<latex_formula>"} ]}
数据质量
- 样本使用 LaTeX 抽象语法树(AST)进行验证。
- 无效或无法渲染的 LaTeX 已被移除。
- 图像内容为来自教科书和论文的印刷数学公式。
- 图像分辨率:通常在 200x50 到 600x100 像素之间。
使用方式
可通过 Hugging Face datasets 库加载:
python
from datasets import load_dataset
dataset = load_dataset("Mustafaege/qwen3.5-vision-ocr-v1")
相关数据集
| 版本 | 样本数 | 来源 | 链接 |
|---|---|---|---|
| v1 (当前数据集) | 68,686 | unsloth/LaTeX_OCR | https://huggingface.co/datasets/Mustafaege/qwen3.5-vision-ocr-v1 |
| v2 | ~145K | + linxy/LaTeX_OCR 完整数据集 | https://huggingface.co/datasets/Mustafaege/qwen3.5-vision-ocr-v2 |
许可证
- Apache 2.0 许可证。详细信息请参阅:https://www.apache.org/licenses/LICENSE-2.0
搜集汇总
数据集介绍
构建方式
在光学字符识别领域,特别是针对数学公式的LaTeX转换任务中,数据集的构建质量直接影响模型的性能。本数据集源自开源数据集linxy/LaTeX_OCR的1%样本,经过严格的筛选与转换流程。原始数据中的图像与LaTeX文本对被重新组织为Qwen3-VL多模态消息格式,确保每一条数据都包含用户指令、图像输入以及对应的LaTeX输出。构建过程中,通过LaTeX抽象语法树验证了文本的有效性,剔除了无法渲染或格式错误的样本,从而保障了数据的准确性与一致性。
特点
该数据集专注于数学公式的LaTeX识别,其核心特点在于采用了标准化的多模态对话结构。所有样本均以消息列表的形式呈现,其中用户消息融合了文本指令与公式图像,而助手消息则提供精确的LaTeX代码。数据覆盖了从分数、积分到求和等多样化的数学表达式,图像分辨率通常介于200x50至600x100像素之间,源自教科书与学术论文中的印刷体公式。这种结构化的设计不仅便于模型理解任务语境,也为视觉-语言模型的微调提供了直接可用的输入输出对。
使用方法
使用该数据集时,可通过Hugging Face的datasets库直接加载,并按照训练集与测试集的划分进行访问。每条数据的图像信息以PIL.Image对象嵌入消息内容中,而LaTeX文本则作为助手回复的文本字段。开发者可以便捷地提取图像与对应公式,用于模型训练或评估。此外,数据集已适配Unsloth等高效训练框架,支持以4位量化等方式加载Qwen2-VL系列模型,并通过SFTTrainer进行指令微调,从而快速构建或优化面向公式识别的多模态模型。
背景与挑战
背景概述
Qwen3.5-vision-ocr-v1数据集由Mustafaege团队构建,旨在为Qwen3.5-VL等视觉语言模型提供针对LaTeX光学字符识别任务的微调数据。该数据集源于对linxy/LaTeX_OCR原始数据集的1%采样,经过格式转换,将图像与LaTeX公式对适配为多模态消息结构,以支持图像到文本的端到端学习。在数学公式识别与科学文档数字化领域,此类数据集有助于推动多模态模型在复杂符号与结构理解方面的能力,其构建体现了开源社区在促进学术资源可访问性方面的持续努力。
当前挑战
LaTeX OCR任务本身面临多重挑战:数学公式具有嵌套结构、特殊符号及空间布局复杂性,模型需准确解析并生成语义正确的LaTeX代码;图像中公式可能因分辨率、字体变形或背景噪声而影响识别精度。在数据集构建过程中,挑战包括从原始数据中筛选并验证LaTeX语法有效性,确保AST解析通过,同时需将异构数据统一转换为标准化的多模态对话格式,以适配现代视觉语言模型的输入规范。
常用场景
经典使用场景
在数学公式识别与处理领域,Qwen3.5 Vision OCR Dataset v1 的经典使用场景是作为训练和评估多模态视觉语言模型的基准数据集。该数据集通过将数学公式图像与对应的 LaTeX 源代码配对,构建了图像到文本的转换任务,特别适用于微调如 Qwen3.5-VL 等先进模型,以提升其在光学字符识别(OCR)任务中的表现。数据集的结构化格式模拟了真实对话场景,用户提供图像和指令,模型则生成准确的 LaTeX 表示,这种设计使得模型能够学习复杂的数学符号和结构,从而在学术文档处理中实现高效自动化。
衍生相关工作
该数据集衍生了多项经典研究工作,主要集中在多模态模型微调和公式识别算法的改进上。例如,基于 Qwen3.5-VL 架构的增强版本通过利用此数据集进行训练,在数学 OCR 任务中取得了显著性能提升。同时,开源社区围绕该数据集开发了多种工具链,如 Unsloth 框架下的高效训练方案,进一步推动了轻量级视觉语言模型的发展。这些工作不仅扩展了数据集的应用范围,还为后续研究提供了可复现的基准,促进了整个领域的协作与进步。
数据集最近研究
最新研究方向
在数学公式识别领域,Qwen3.5-vision-ocr-v1数据集正推动多模态大模型在科学文档理解方面的前沿探索。该数据集将图像与LaTeX代码配对,转换为Qwen3-VL的多模态消息格式,为视觉语言模型提供了精细调优的基础。当前研究聚焦于提升复杂数学符号的识别精度,尤其是在手写与印刷体混合场景下的鲁棒性,同时结合大语言模型的推理能力,实现从公式图像到结构化代码的端到端生成。这一方向与开源社区中增强科学计算可访问性的热点事件紧密相连,例如推动学术资源数字化与自动化处理,其影响在于加速科研工作流程,并为教育技术工具的开发提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



