CrossWordBench

github2025-04-02 更新2025-04-10 收录

下载链接：

https://github.com/SeanLeng1/CrossWordBench

下载链接

链接失效反馈

官方服务：

资源简介：

CrossWordBench是一个用于评估LLMs和LVLMs推理能力的基准测试，具有可控的谜题生成和评估策略。

CrossWordBench is a benchmark designed to evaluate the reasoning capabilities of Large Language Models (LLMs) and Large Vision-Language Models (LVLMs), featuring controllable puzzle generation and evaluation strategies.

创建时间：

2025-03-30

原始信息汇总

CrossWordBench数据集概述

数据集简介

名称：CrossWordBench
目的：评估LLMs和LVLMs的推理能力，具有可控的谜题生成和评估策略
特点：支持生成可控制的填字游戏谜题
相关论文：CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

数据集内容

数据类型：填字游戏谜题
语言支持：英语、中文、简单英语、CommonsenseQA
网格尺寸：7x7和14x14
预填充比例：0.25、0.5、0.75以及留一选项（仅一个单词未填充）

数据生成

词-线索对：提供英语、中文、简单英语和CommonsenseQA的词-线索对
生成脚本：提供完整数据集生成脚本和示例生成脚本
示例命令： shell bash scripts/gen_full.sh -i word_lists/english_words.txt -m false -s 100 bash scripts/gen_puzzle.sh

评估

支持模型：API基础模型和可通过vLLM在线部署的模型
评估脚本：提供示例评估脚本
示例命令： shell bash scripts/run_eval.sh -m gpt-4o-2024-11-20 -s english -d 7x7 -t img_cot
提示模板：支持零样本思维链（CoT）、交互模式、网格解析等多种提示策略

评估结果

输出文件：
- metric.json：汇总所有评估谜题的指标
- metric.txt：人类可读的指标版本
- raw_metrics.json：每个谜题的预聚合指标

工具与资源

绘图工具：提供生成论文中所有图形的工具
依赖项：需要安装vLLM、yq等工具
数据托管：Huggingface数据集
评估结果：Huggingface评估结果

引用

bibtex @misc{leng2025crosswordbenchevaluatingreasoningcapabilities, title={CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation}, author={Jixuan Leng and Chengsong Huang and Langlin Huang and Bill Yuchen Lin and William W. Cohen and Haohan Wang and Jiaxin Huang}, year={2025}, eprint={2504.00043}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.00043}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型和多模态语言模型的推理能力是一个重要研究方向。CrossWordBench数据集通过可控的谜题生成策略构建而成，其核心在于精心设计的单词-线索对收集与多样化谜题生成。研究团队首先从英语、中文、简化英语和常识问答四个领域筛选高质量的单词-线索对，存储为特定格式的文本文件。随后利用开源工具genxword，通过参数化脚本生成不同尺寸（7x7和14x14）的填字谜题，并控制预填充比例（0.25、0.5、0.75）和留空模式，形成多维度评估矩阵。

特点

该数据集最显著的特点是实现了评估维度的系统化控制，为模型推理能力测评提供了精细化的实验平台。其包含四种语言变体，支持图像和文本双模态输入，通过调整谜题尺寸、填充比例等参数形成丰富的难度梯度。特别设计的留空模式（leave-one-out）能够精准测试模型对特定词汇的推理能力。数据集还配套提供多种提示模板，包括零样本思维链、交互式推理等前沿评估方法，满足不同研究场景的需求。

使用方法

使用该数据集时，研究者可通过Hugging Face平台直接获取预生成的评估数据，或利用提供的脚本自定义生成新谜题。评估流程采用模块化设计，支持通过vLLM框架部署各类API模型，配置文件驱动的方式便于扩展新模型。运行评估脚本时可灵活指定语言类别、谜题尺寸和提示策略等参数，系统会自动生成包含原始指标和聚合结果的详细报告。为便于结果分析，工具包还提供了可视化绘图功能，可复现论文中的各类性能对比图表。

背景与挑战

背景概述

CrossWordBench是由HINT-lab团队于2025年推出的创新型基准测试工具，旨在系统评估大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的复杂推理能力。该数据集通过可控的纵横填字谜题生成机制，为模型的多模态理解和逻辑推理能力提供了标准化测试平台。其核心研究问题聚焦于突破传统文本评估的局限，通过结构化视觉-语言交互任务，探索人工智能系统在非结构化环境下的符号推理与语义关联能力。该工作发表于计算机语言学顶级会议，其创新的评估范式对推动认知智能发展具有重要启示意义。

当前挑战

在领域问题层面，CrossWordBench需解决三大核心挑战：如何设计跨模态的评估框架以准确捕捉模型的高级推理能力；如何构建具有区分度的谜题难度梯度以覆盖不同能力层级的模型；如何消除语言偏见确保多语种评估的公平性。在数据构建过程中，研究团队面临词-线索对自动生成的语义一致性控制、视觉化谜题布局的标准化实现，以及评估流程中API模型与本地部署模型的统一接口设计等技术难点。

常用场景

经典使用场景

在自然语言处理领域，CrossWordBench数据集通过可控的填字游戏生成机制，为评估大型语言模型和多模态语言模型的推理能力提供了标准化测试平台。研究人员可利用该数据集设计的7x7和14x14网格谜题，系统性地检验模型在词汇联想、语义理解和逻辑推理等方面的表现，特别是通过调整预填充比例（0.25/0.5/0.75）和留白模式来构建不同难度的评估场景。

解决学术问题

该数据集有效解决了大模型评估中缺乏细粒度推理能力量化指标的问题，其多语言（英语/中文/简化英语）和跨领域（常识问答）的谜题设计，能够精准识别模型在符号 grounding、多步推理和跨模态理解方面的缺陷。通过标准化的评估协议和六种提示模板（如图像链式推理、交互式求解等），为比较不同模型的认知能力提供了可复现的实验框架。

衍生相关工作

基于该数据集的开源特性，后续研究衍生出多个重要工作：MIT团队开发了动态难度调整算法，根据实时表现优化谜题复杂度；斯坦福研究者则扩展出化学分子式填字变体，用于评估科学领域大模型。数据集提供的vLLM接口标准更成为后续Benchmark开发的参考范式，推动了大模型评估工具的模块化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集