mcocr_converted_for_qwen25_VL_v7
收藏魔搭社区2025-11-17 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/jacksonjack/mcocr_converted_for_qwen25_VL_v7
下载链接
链接失效反馈官方服务:
资源简介:
# MCOCR Converted Dataset
This dataset is a converted version of the DThai/mcocr dataset, formatted for multimodal instruction tuning Qwen2.5 7B with Vietnam language.
## Dataset Structure
- Images: Document images from the original MCOCR dataset
- JSON files: Instruction-following conversations for each split (train, validation, test)
## Fields
- sohoadon: Invoice number
- kyhieuhoadon: Invoice symbol
- MST: Tax code
- TongTienAVAT: Total amount
## Format
Each example contains:
- A document image
- A question about a specific field
- The ground truth answer
# MCOCR 转换数据集(MCOCR Converted Dataset)
本数据集为DThai/mcocr数据集的转换衍生版本,针对越南语多模态指令微调场景进行格式适配,适配模型为Qwen2.5 7B。
## 数据集结构
- 图像:源自原始MCOCR数据集的文档图像
- JSON文件:对应训练、验证、测试各拆分集的指令遵循对话数据
## 字段说明
- sohoadon:发票编号
- kyhieuhoadon:发票代码
- MST:税务代码(Tax code)
## 数据格式
每个示例包含以下内容:
- 单份文档图像
- 针对特定字段的查询问题
- 对应的真值答案
提供机构:
maas
创建时间:
2025-02-28



