GridTallyBench
收藏GridTallyBench 数据集概述
概览
GridTallyBench 是一个合成棋盘图像数据集,旨在测试和基准化多模态大型语言模型(MLLMs)在视觉模式识别和计数任务上的表现。该数据集提供了一个受控环境,用于评估模型在基本视觉任务上的性能,特别是评估 MLLM 对简单几何图案的计数和描述能力。
数据集详情
- 名称: GridTallyBench
- 版本: 1.0.0
- 任务: 图像分类和对象计数
- 大小: 960 张图像
- 格式: Parquet 文件,包含图像数据和元数据
- 许可证: MIT
内容
数据集包含以下变化的棋盘图像:
- 块大小: 1x1 到 24x24 像素
- 网格大小: 1x1 到 20x20 块
- 起始颜色: 黑色优先和白色优先图案
每个图像都附带以下元数据:
block_pixel: 每个方块的像素大小(1 到 24)grid_size: 每行/列的方块数量(1 到 20)first_block: 左上角方块的颜色(black 或 white)image: PNG 图像的二进制数据
使用场景
该数据集特别适用于:
- 测试 MLLM 在图像中计数对象的能力
- 评估模式识别能力
- 评估简单场景中的颜色区分能力
- 在受控合成图像上基准化性能
加载数据集
使用 Hugging Face datasets 库加载和使用此数据集:
python from datasets import load_dataset
dataset = load_dataset("MoonTideF/GridTallyBench")
访问第一个项目
first_item = dataset[test][0] print(f"Block size: {first_item[block_pixel]}x{first_item[block_pixel]} pixels") print(f"Grid size: {first_item[grid_size]}x{first_item[grid_size]} blocks") print(f"First block color: {first_item[first_block]}") dataset[test][0][image].show()
数据集创建
该数据集是使用自定义 Python 脚本生成的。图像为合成图像,不包含任何现实世界内容或个人信息。
限制
- 数据集仅限于黑白颜色
- 图像为合成图像,可能不代表现实世界的复杂性
- 最大图像尺寸为 480x480 像素(20x20 网格,24x24 像素块)
引用
如果您在研究中使用此数据集,请按以下方式引用:
@misc{gridtallybench, author = {MoonTideF}, title = {GridTallyBench: Checkerboard Image Dataset for MLLM Benchmarking}, year = {2024}, publisher = {Hugging Face}, journal = {Hugging Face Datasets}, howpublished = {url{https://huggingface.co/datasets/MoonTideF/GridTallyBench}} }




