MMCricBench
收藏Hugging Face2025-08-24 更新2025-08-25 收录
下载链接:
https://huggingface.co/datasets/DIALab/MMCricBench
下载链接
链接失效反馈官方服务:
资源简介:
MMCricBench是一个多模态板球计分卡视觉问答评估基准,用于评估大规模视觉语言模型在数值推理、跨语言理解和多图像推理方面的能力。数据集包含合成板球计分卡图片和英文的问题答案对,分为单张图片问题和多张图片问题两个评估部分。
创建时间:
2025-08-22
原始信息汇总
数据集概述
基本信息
- 数据集名称:MMCricBench
- 许可证:CC BY-NC-SA 4.0
- 任务类别:表格问答、视觉问答
- 语言:英语、印地语
- 标签:板球
- 规模:1K<n<10K
数据内容
- 图像:1,463张合成记分卡(PNG格式)
- 822张单图像记分卡
- 641张多图像记分卡
- 问答对:1,500个(英语)
- 推理类别:
- C1:直接检索和简单推理
- C2:基础算术和条件逻辑
- C3:多步定量推理(通常跨图像)
数据集结构
特征
- id:字符串,唯一标识符
- images:图像序列,一个或多个记分卡图像的路径
- question:字符串,问题文本(英语)
- answer:字符串,真实答案(规范化)
- category:字符串,推理类别(C1/C2/C3)
- subset:字符串,子集类型(single/multi)
数据拆分
- test_single:单图像问题,2,000个示例
- test_multi:多图像问题,997个示例
技术细节
- 下载大小:1,573,738,795字节
- 数据集大小:1,880,924,216字节
- test_single拆分大小:976,385,438字节
- test_multi拆分大小:904,538,778字节
基准结果
准确率(%)
| 模型 | 参数量 | 单图像-英语(平均) | 单图像-印地语(平均) | 多图像-英语(平均) | 多图像-印地语(平均) |
|---|---|---|---|---|---|
| SmolVLM | 500M | 19.2 | 19.0 | 11.8 | 11.6 |
| Qwen2.5VL | 3B | 40.2 | 33.3 | 31.2 | 22.0 |
| LLaVA-NeXT | 7B | 28.3 | 26.6 | 16.2 | 14.8 |
| mPLUG-DocOwl2 | 8B | 20.7 | 19.9 | 15.2 | 14.4 |
| Qwen2.5VL | 7B | 49.1 | 42.6 | 37.0 | 32.2 |
| InternVL-2 | 8B | 29.4 | 23.4 | 18.6 | 18.2 |
| Llama-3.2-V | 11B | 27.3 | 24.8 | 26.2 | 20.4 |
| GPT-4o | — | 57.3 | 45.1 | 50.6 | 43.6 |
联系方式
- 联系人:Abhirama Subramanyam
- 邮箱:penamakuri.1@iitj.ac.in
搜集汇总
数据集介绍

构建方式
在板球运动数据分析领域,MMCricBench数据集通过合成1,463张半结构化板球记分牌图像构建而成,涵盖单图像822张和多图像641张。数据采集采用人工标注与自动化流程结合的方式,生成1,500个高质量英文问答对,并依据C1至C3三级推理难度进行分类标注,确保数据在数值推理和跨图像分析方面的严谨性。
特点
该数据集突出体现多模态与多语言特性,融合视觉问答和表格问答任务,支持英文与印地语记分牌图像分析。其核心优势在于分层推理架构:C1类别涵盖直接检索与简单推理,C2涉及基础算术与条件逻辑,C3则需要跨图像的多步定量推理,为评估大 vision-语言模型提供多维度的挑战性基准。
使用方法
研究人员可通过HuggingFace平台直接加载test_single与test_multi两个测试分割,利用标准数据加载接口获取图像序列与对应问答对。典型工作流包括调用预训练视觉-语言模型进行推理验证,通过对比模型在单图像与多图像场景下的数值计算、语言理解及跨模态推理能力,推动多模态推理技术的迭代发展。
背景与挑战
背景概述
MMCricBench数据集由DIALab研究团队于2024年推出,专注于板球记分卡的多模态视觉问答评估。该数据集旨在推动大规模视觉语言模型在数值推理、跨语言理解和多图像分析方面的研究,涵盖英语和印地语两种语言的板球记分卡图像。其核心研究问题在于如何让模型有效处理半结构化体育数据中的复杂数值关系与跨模态关联,为体育数据分析与多模态人工智能的交叉领域提供了重要基准。
当前挑战
该数据集解决的领域挑战包括板球记分卡中高度专业化的数值逻辑推理、多图像协同分析以及跨语言语义对齐问题。构建过程中的技术挑战主要体现在板球数据结构的复杂性,需要精确合成包含多赛季比赛数据的记分卡图像;同时需确保英语与印地语记分卡在视觉布局和语义层面的对称性,以及设计涵盖三个难度层级(C1-C3)的推理问题链,保持数值计算与文本推理的严格一致性。
常用场景
经典使用场景
在板球运动数据分析领域,MMCricBench数据集通过合成板球记分牌图像与多模态问答对,为大型视觉语言模型提供了标准化的评估平台。该数据集典型应用于模型对半结构化表格图像的数值推理能力测试,涵盖单图像查询和多图像联合分析场景,特别是在需要跨语言理解的板球赛事数据解读中展现出独特价值。
实际应用
在实际应用层面,MMCricBench支撑了智能体育分析系统的开发,能够自动解析板球比赛记分牌中的关键数据,为赛事解说、战术分析提供实时支持。其跨语言特性尤其适用于南亚地区的多语言环境,使得英语和印地语使用者都能通过自然问答获取比赛统计数据,提升了体育数据服务的包容性和可及性。
衍生相关工作
基于该数据集衍生的经典工作包括跨模态表格理解模型的创新架构设计,如结合光学字符识别与数值推理的混合系统。多项研究利用其多图像推理特性开发了时序数据分析框架,这些成果进一步拓展到其他体育项目的数据分析中,形成了跨领域表格理解的技术迁移范式,为文档智能处理提供了重要参考。
以上内容由遇见数据集搜集并总结生成



