five

mcocr_converted_for_qwen25_VL_v7

收藏
魔搭社区2025-11-17 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/jacksonjack/mcocr_converted_for_qwen25_VL_v7
下载链接
链接失效反馈
官方服务:
资源简介:
# MCOCR Converted Dataset This dataset is a converted version of the DThai/mcocr dataset, formatted for multimodal instruction tuning Qwen2.5 7B with Vietnam language. ## Dataset Structure - Images: Document images from the original MCOCR dataset - JSON files: Instruction-following conversations for each split (train, validation, test) ## Fields - sohoadon: Invoice number - kyhieuhoadon: Invoice symbol - MST: Tax code - TongTienAVAT: Total amount ## Format Each example contains: - A document image - A question about a specific field - The ground truth answer

# MCOCR 转换数据集(MCOCR Converted Dataset) 本数据集为DThai/mcocr数据集的转换衍生版本,针对越南语多模态指令微调场景进行格式适配,适配模型为Qwen2.5 7B。 ## 数据集结构 - 图像:源自原始MCOCR数据集的文档图像 - JSON文件:对应训练、验证、测试各拆分集的指令遵循对话数据 ## 字段说明 - sohoadon:发票编号 - kyhieuhoadon:发票代码 - MST:税务代码(Tax code) ## 数据格式 每个示例包含以下内容: - 单份文档图像 - 针对特定字段的查询问题 - 对应的真值答案
提供机构:
maas
创建时间:
2025-02-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作