qwen3.5-vision-ocr-v2
收藏Qwen3.5 Vision OCR Dataset v2 数据集概述
基本信息
- 数据集名称: Qwen3.5 Vision OCR Dataset v2
- 许可证: Apache 2.0
- 语言: 英语
- 模态: 图像、文本
- 任务类别: 图像到文本
- 标签: OCR、LaTeX、数学、视觉、多模态、图像到文本、公式识别、手写体、印刷体、SFT、qwen3、qwen3.5、qwen-vl、qwen2.5-vl、微调、开源、扩展数据集
- 规模类别: 100K < n < 1M
- 注释创建者: 机器生成
- 语言创建者: 发现
数据集摘要
- 总样本数: 约145K
- 训练集样本数: 约130K
- 测试集样本数: 约15K
- 数据来源: unsloth/LaTeX_OCR + linxy/LaTeX_OCR(完整版)
- 数据格式: Qwen3-VL 多模态消息格式
- 核心任务: 图像 → LaTeX 公式
版本对比 (v1 vs v2)
| 版本 | 样本数 | 覆盖范围 | 来源 |
|---|---|---|---|
| v1 | 68,686 | 印刷体公式(1%样本) | unsloth/LaTeX_OCR |
| v2 (当前) | ~145K | 印刷体 + 完整覆盖 | + linxy/LaTeX_OCR 完整数据集 |
v2 版本更新内容
- 数据量翻倍: 约145K vs 约68K 样本
- 完整覆盖: 使用完整的 linxy/LaTeX_OCR 数据集(非子集)
- 多样性增强: 涵盖更广泛的公式类型和复杂度
- 泛化能力提升: 更多独特样本降低了过拟合风险
数据集结构
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
messages |
list[dict] |
多模态对话:用户(图像 + 指令)+ 助手(LaTeX) |
消息模式
messages[0] = {"role": "user", "content": [ {"type": "text", "text": "Write the LaTeX representation for this image."}, {"type": "image", "image": <PIL.Image>} ]} messages[1] = {"role": "assistant", "content": [ {"type": "text", "text": "<latex_formula>"} ]}
数据来源
| 数据集 | 配置 | 样本数 | 公式类型 | 备注 |
|---|---|---|---|---|
| unsloth/LaTeX_OCR | default | 68,686 | 印刷体 | linxy 完整数据集的 1% 样本 |
| linxy/LaTeX_OCR | full | ~76,318 | 印刷体 | 完整的印刷文本数据集 |
原始来源: LinXueyuanStdio/LaTeX_OCR — 数据来自 Zenodo、CROHME 和自定义数据集。通过 LaTeX AST 解析进行验证。
数据格式示例
json { "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Write the LaTeX representation for this image." }, { "type": "image", "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=320x64>" } ] }, { "role": "assistant", "content": [ { "type": "text", "text": "\int_{0}^{\infty} \frac{x^{s-1}}{e^{x}-1} dx = \Gamma(s) \zeta(s)" } ] } ] }
公式示例
| 图像描述 | LaTeX 输出 |
|---|---|
| 简单分数 | frac{a}{b} |
| 求和 | sum_{i=1}^{n} x_i |
| 带极限的积分 | int_{-infty}^{infty} e^{-x^2} dx = sqrt{pi} |
| 矩阵 | egin{pmatrix} a & b \ c & d end{pmatrix} |
| 嵌套分数 | `frac{d}{dx}left(frac{f(x)}{g(x)} |
| ight)` |
使用方式
python from datasets import load_dataset
dataset = load_dataset("Mustafaege/qwen3.5-vision-ocr-v2")
访问图像和 LaTeX
sample = dataset[train][0] image = sample[messages][0][content][1][image] # PIL.Image latex = sample[messages][1][content][0][text] # LaTeX 字符串 print(f"LaTeX: {latex}")
相关数据集
| 版本 | 样本数 | 链接 |
|---|---|---|
| v1 | 68,686 | Mustafaege/qwen3.5-vision-ocr-v1 |
| v2 (当前) | ~145K | Mustafaege/qwen3.5-vision-ocr-v2 |
许可证
Apache 2.0 — 详情请参阅 LICENSE。



