MWSVisionBench

github2025-10-09 更新2025-10-10 收录

下载链接：

https://github.com/mts-ai/MWS-Vision-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MWSVisionBench是一个前沿的基准测试数据集，旨在评估多模态大语言模型在俄语OCR和文档理解任务上的表现。该数据集包含2,580个问答对和800个独特图像，专注于真实世界业务场景，包括合同、报告、发票、图表、手写笔记等真实业务文档。数据集提供五种核心任务类型：文本OCR、结构化OCR、文本定位、关键信息提取和视觉问答。

MWSVisionBench is a cutting-edge benchmark dataset aimed at evaluating the performance of multimodal large language models (LLMs) on Russian OCR and document understanding tasks. This dataset consists of 2,580 question-answer pairs and 800 unique images, focusing on real-world business scenarios that encompass authentic business documents such as contracts, reports, invoices, charts, handwritten notes and more. It provides five core task types: text OCR, structured OCR, text localization, key information extraction, and visual question answering.

创建时间：

2025-10-06

原始信息汇总

MWSVisionBench 数据集概述

数据集基本信息

数据集名称: MWSVisionBench
开发机构: MTS AI
许可证: MIT
编程语言: Python 3.10+
数据访问: https://huggingface.co/datasets/MTSAIR/MWS-Vision-Bench

数据集定位

首个针对俄语的多模态大语言模型的综合OCR基准测试，专注于评估模型在真实业务场景下的文档理解能力。

核心特性

数据规模

问题-答案对: 2,580对
唯一图像: 800张
验证集: 1,302个问题，400张图像（公开）
测试集: 1,272个问题，400张图像（私有）

数据特点

真实业务文档: 合同、报告、发票、图表
复杂布局: 表格、图表、混合文本图形内容
手写内容: 包括乐谱和表格
专业标注: 由人类专家标注
原创俄语数据集: 保证不在现有模型训练集中

任务类型

五大核心任务

文本OCR: 基础图像到文本转换
结构化OCR: 图像到Markdown转换（需要布局理解）
文本定位: 查找并返回特定文本的边界框
关键信息提取: 提取结构化数据（JSON格式）
视觉问答: 回答关于文档内容的问题

技术架构

评估框架

统一API支持: OpenAI、GigaChat、vLLM（OpenAI兼容）
自动模型路由: 智能推理脚本选择
并行评估: 多进程快速处理
综合指标: 基于OCRBench v2优化适配俄语
API优先方法: 通过端点实现可重复评估

性能基准

验证集排名（前五模型）

模型	总体得分	图像→文本	图像→Markdown	定位	KIE (JSON)	VQA
Gemini-2.5-pro	0.682	0.836	0.745	0.084	0.891	0.853
Gemini-2.5-flash	0.644	0.796	0.683	0.067	0.841	0.833
gpt-4.1-mini	0.643	0.866	0.724	0.091	0.750	0.782
Claude-4.5-Sonnet	0.639	0.723	0.676	0.377	0.728	0.692
Cotype VL (32B 8 bit)	0.639	0.797	0.756	0.262	0.694	0.685

测试集排名（前五模型）

模型	总体得分	图像→文本	图像→Markdown	定位	KIE (JSON)	VQA
Gemini-2.5-pro	0.670	0.850	0.734	0.079	0.855	0.834
Gemini-2.5-flash	0.633	0.827	0.664	0.072	0.820	0.784
Claude-4.5-Sonnet	0.632	0.727	0.652	0.369	0.745	0.665
gpt-4.1-mini	0.628	0.865	0.710	0.091	0.741	0.735
Cotype VL (32B 8 bit)	0.624	0.799	0.742	0.246	0.672	0.663

数据格式

json { "id": "1", "type": "text grounding ru", "dataset_name": "business", "image_path": "/business/scans/b2b_scans_1.jpg", "question": "Где находится герб на документе? Выведи абсолютные координаты...", "answers": [398, 65, 467, 140] }

相关资源

详细分析: https://habr.com/ru/companies/mts_ai/articles/953292/
学术论文: 即将发布
模型提交: 联系 g.gaikov@mts.ai 进行私有测试集评估

搜集汇总

数据集介绍

构建方式

在俄罗斯文档智能处理领域，MWSVisionBench通过精心设计的构建流程确立了其专业地位。该数据集基于800张真实商业文档图像构建，涵盖合同、票据、手写笔记等多样化场景，并针对俄语环境特点进行了深度优化。构建过程中采用人工专家标注与专业校验相结合的方式，确保了2580个问答对在语义准确性和任务多样性方面的卓越品质。数据采集严格遵循现实业务需求，所有样本均为全新收集，有效避免了与现有模型训练数据的重叠问题。

特点

作为首个面向俄语环境的综合性OCR评测基准，MWSVisionBench展现出鲜明的技术特色。数据集涵盖五大核心任务类型，从基础的图像转文本到复杂的结构化信息提取，全面评估多模态模型的文档理解能力。其独特价值在于融合了真实商业场景中的复杂布局文档，包括表格、图表和混合图文内容，特别加入了手写体及乐谱等具有挑战性的识别对象。数据集采用统一API架构设计，支持OpenAI、GigaChat等主流接口，并配备自动化模型路由与并行评估机制，显著提升了评测效率与可复现性。

使用方法

该数据集的使用遵循标准化评测流程，用户可通过简单的命令行接口快速启动模型评估。数据集自动从HuggingFace平台下载，无需手动配置数据路径。评测系统支持灵活的并行处理策略，根据不同的API服务特性智能调整工作线程数量，如针对OpenAI服务建议使用30个并行线程，而对GigaChat则推荐单线程运行以确保符合其严格的速率限制。系统自动生成包含验证集和测试集评估结果的JSON格式报告，同时保存详细的执行日志，为模型性能分析提供完整的数据支持。

背景与挑战

背景概述

随着多模态大语言模型在文档理解领域的快速发展，俄语OCR评估体系存在显著空白。MTS AI研究院于2024年推出的MWSVisionBench基准测试，聚焦真实商业场景中的文档解析需求，涵盖合同、报表、手写笔记等800幅图像构成的2580组问答对。该数据集通过五大核心任务类型系统评估模型在俄语环境下的文本识别、结构化提取及视觉问答能力，为俄语多模态模型研发提供了关键评估标准。

当前挑战

俄语文档理解面临字符连写与复杂版式的双重挑战，商业文档中手写体与印刷体混合排版显著提升了文本定位难度。数据集构建过程中需克服专业标注成本高昂的问题，音乐乐谱等特殊符号的标注要求跨领域知识融合。真实业务场景下的表格重建与坐标回归任务，要求模型同时具备空间感知与语义理解能力，而俄语语法特有的格变化体系更增加了关键信息提取的复杂性。

常用场景

经典使用场景

在俄语文档智能处理领域，MWSVisionBench作为首个综合性多模态大语言模型评测基准，其核心应用聚焦于真实商业场景下的文档理解任务。该数据集通过涵盖合同、报告、发票等实际业务文档，结合表格、图表与手写体等复杂布局，系统评估模型在俄语环境下的光学字符识别与结构化信息提取能力。其2580组问答对与800张独特图像构成的语料库，为研究机构提供了标准化测试平台，推动多模态模型在复杂文档解析方面的性能优化。

解决学术问题

该数据集有效解决了多模态模型在俄语场景下的领域适应性问题，填补了非英语文档理解评估体系的空白。通过设计文本OCR、结构化转换、文本定位、关键信息抽取和视觉问答五类核心任务，系统应对了真实业务文档中存在的布局复杂、多模态融合、语言特异性等学术挑战。其采用的统一API架构与并行评估机制，为跨模型性能比较提供了可复现的实验范式，显著提升了文档智能领域研究成果的可信度与可比性。

衍生相关工作

该基准催生了俄语多模态模型的系统性优化研究，诸多工作基于其评估框架开展模型架构创新。受OCRBench v2启发的评估指标经过俄语场景适配后，衍生出针对斯拉夫文字特性的检测算法改进。在Gemini-2.5-pro、Claude-4.5-Sonnet等顶尖模型的对比研究中，研究者通过该数据集揭示了多语言文档理解中的跨语言迁移规律，为开发兼顾精度与效率的轻量化模型提供了重要实验依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集