VGRP-Bench-tsv
收藏Hugging Face2025-04-11 更新2025-04-12 收录
下载链接:
https://huggingface.co/datasets/VGRP-Bench/VGRP-Bench-tsv
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含多种类型逻辑谜题的图像数据集,每种类型的谜题都有对应的测试集。谜题类型包括但不限于水族馆、战舰、黑白棋、彩色数独、田字格探险、不等式数独、히토리(一种数独游戏)、拼图数独、卡卡苏、卡卡罗、杀手数独、亮灯游戏、非ogram、奇偶数独、连续数独、摩天楼、数独、温度计、树和帐篷等。
创建时间:
2025-04-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: VGRP-Bench-tsv
- 数据集地址: https://huggingface.co/datasets/VGRP-Bench/VGRP-Bench-tsv
数据集配置
数据集包含多个配置,每个配置对应一种特定的逻辑谜题类型:
- aquarium_4x4
- battleships_4x4
- binairo_4x4
- coloredsudoku_4x4
- fieldexplore_4x4
- futoshiki_4x4
- hitori_4x4
- jigsawsudoku_4x4
- kakurasu_4x4
- kakuro_4x4
- killersudoku_4x4
- lightup_4x4
- nonogram_5x5
- oddevensudoku_4x4
- renzoku_4x4
- skyscraper_4x4
- sudoku_4x4
- sudoku_9x9
- thermometers_12x12
- thermometers_4x4
- thermometers_8x8
- treesandtents_12x12
- treesandtents_5x5
- treesandtents_8x8
数据特征
每个配置包含以下特征:
- file_name: 图像类型
- initialization: 字符串类型
- prompt: 字符串类型
- sample_answer: 字符串类型
数据分割
- 分割名称: test
- 每个配置的测试集样本数: 10
数据大小
每个配置的数据大小如下(单位:字节):
- aquarium_4x4: 2,150,594
- battleships_4x4: 1,176,561
- binairo_4x4: 2,715,475
- coloredsudoku_4x4: 503,929
- fieldexplore_4x4: 871,339
- futoshiki_4x4: 1,997,089
- hitori_4x4: 1,765,881
- jigsawsudoku_4x4: 904,435
- kakurasu_4x4: 3,658,243
- kakuro_4x4: 1,665,706
- killersudoku_4x4: 722,742
- lightup_4x4: 1,419,507
- nonogram_5x5: 1,829,994
- oddevensudoku_4x4: 1,920,036
- renzoku_4x4: 2,730,731
- skyscraper_4x4: 1,753,061
- sudoku_4x4: 1,872,229
- sudoku_9x9: 2,675,001
- thermometers_12x12: 1,907,910
- thermometers_4x4: 1,625,572
- thermometers_8x8: 1,304,199
- treesandtents_12x12: 4,080,357
- treesandtents_5x5: 2,851,619
- treesandtents_8x8: 1,222,666
下载信息
每个配置的下载大小如下(单位:字节):
- aquarium_4x4: 2,135,986
- battleships_4x4: 1,148,947
- binairo_4x4: 2,710,131
- coloredsudoku_4x4: 477,341
- fieldexplore_4x4: 842,731
- futoshiki_4x4: 1,984,106
- hitori_4x4: 1,738,702
- jigsawsudoku_4x4: 878,494
- kakurasu_4x4: 3,623,842
- kakuro_4x4: 1,647,850
- killersudoku_4x4: 699,794
- lightup_4x4: 1,395,733
- nonogram_5x5: 1,807,745
- oddevensudoku_4x4: 1,902,551
- renzoku_4x4: 2,722,701
- skyscraper_4x4: 1,735,800
- sudoku_4x4: 1,859,112
- sudoku_9x9: 2,639,350
- thermometers_12x12: 1,847,449
- thermometers_4x4: 1,606,807
- thermometers_8x8: 1,276,308
- treesandtents_12x12: 4,048,401
- treesandtents_5x5: 2,830,419
- treesandtents_8x8: 1,202,081
搜集汇总
数据集介绍

构建方式
VGRP-Bench-tsv数据集通过系统化的方式构建,专注于视觉推理与几何逻辑谜题的结合。该数据集包含多种经典谜题类型,如数独、战舰谜题、非图等,每种谜题均以图像形式呈现,并附带初始状态描述、提示信息和标准答案。数据采集过程严格遵循标准化流程,确保每种谜题类型的多样性和代表性,所有样本均经过人工校验以保证质量。
特点
该数据集以其丰富的谜题类型和严谨的结构设计脱颖而出。涵盖从4x4到12x12不同难度的谜题矩阵,每个配置包含10个测试样本,图像与文本信息相互补充。数据特征包括文件名、初始化描述、提示文本和参考答案,为视觉推理任务提供了多模态研究基础。谜题类型的多样性使该数据集能够全面评估模型在几何逻辑推理方面的能力。
使用方法
研究人员可通过加载特定配置文件访问不同谜题类型的数据子集。数据集适用于视觉问答、逻辑推理和多模态理解等任务,建议结合图像识别与自然语言处理技术进行处理。测试分割可直接用于模型评估,初始状态和提示文本可作为模型输入,参考答案则用于验证推理结果的正确性。使用前需确保正确处理图像与文本的对应关系。
背景与挑战
背景概述
VGRP-Bench-tsv数据集是一个专注于视觉推理与几何逻辑问题的多模态基准测试集,由匿名研究团队在2023年构建发布。该数据集以16种经典益智游戏(如数独、数织、战舰等)的4x4至12x12变体为核心,通过图像-文本对的形式呈现问题与答案。其创新性在于将传统逻辑游戏的规则理解、空间推理和数学计算转化为可量化的机器学习任务,为评估模型在复杂视觉推理任务中的表现提供了标准化平台。数据集的设计理念源于认知科学对人类问题解决机制的研究,旨在填补视觉-语言模型在结构化推理能力评估方面的空白。
当前挑战
该数据集面临双重挑战:在领域问题层面,不同逻辑游戏涉及离散数学、组合优化等多样化的推理模式,要求模型同时具备视觉特征提取、规则解析和符号推理的协同能力,现有神经网络架构在此类需要精确逻辑验证的任务中表现仍不稳定。在构建过程中,确保游戏规则在图像和文本描述中的无歧义表达成为关键难点,研究团队需设计严格的验证流程来保证每个问题仅存在唯一合法解,同时维持不同游戏难度级别的平衡性。图像生成环节还需克服棋盘类图案的标准化呈现与视觉干扰因素控制的矛盾。
常用场景
经典使用场景
在视觉推理与几何逻辑领域,VGRP-Bench-tsv数据集通过多样化的网格类谜题(如数独、战舰谜题、非图等)构建了标准化测试环境。研究者可利用其图像-文本配对结构,评估模型对规则理解、空间推理和符号逻辑的跨模态处理能力,尤其在4x4至12x12不同复杂度网格上的表现差异分析具有显著价值。
解决学术问题
该数据集有效解决了视觉推理任务中规则泛化性研究的空白,为验证神经网络是否真正掌握抽象逻辑规则而非模式匹配提供了基准工具。其多配置设计支持对模型在约束满足问题、组合优化等核心认知能力上的量化评估,推动了可解释AI在符号接地问题中的研究进展。
衍生相关工作
基于该数据集衍生的研究包括《Neuro-Symbolic Visual Reasoning with VGRP》等跨模态推理框架,以及《Benchmarking Compositional Generalization in Visual Puzzles》等评估体系。相关成果在ACL、CVPR等会议形成了视觉推理子领域的研究脉络。
以上内容由遇见数据集搜集并总结生成



