Rosetta Stone–Match-Up paired puzzles corpus
收藏arXiv2026-05-13 更新2026-05-15 收录
下载链接:
https://www.uklo.org/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由纽约市立大学等机构创建,是一个专门针对语言学谜题的配对语料库,核心包含Rosetta Stone和Match-Up两种常见谜题格式的对应版本。数据集内容源于英国语言学奥林匹克竞赛(UKLO)发布的原始Rosetta Stone谜题及其官方解答,通过系统化转换流程生成了对应的Match-Up版本,从而形成了结构化的谜题对。其创建过程涉及对原始谜题陈述、问题及答案的提取,并遵循特定规则进行格式转换与配对。该数据集主要应用于评估人类与大语言模型在语言学推理任务上的表现,旨在探究不同谜题格式是否代表本质相同的底层结构,并为高效的谜题生成方法提供基准测试资源。
This dataset, developed by institutions including the City University of New York, is a paired corpus dedicated to linguistic puzzles, with core contents consisting of matched versions of two prevalent puzzle formats: Rosetta Stone and Match-Up. The dataset’s content is derived from the original Rosetta Stone puzzles and their official solutions published by the United Kingdom Linguistics Olympiad (UKLO). Corresponding Match-Up versions were generated through a systematic conversion pipeline, yielding structured puzzle pairs. Its construction process entails extracting the original puzzle descriptions, questions, and answers, followed by format conversion and pairing following specific guidelines. This dataset is primarily utilized to assess the performance of both humans and large language models (LLMs) on linguistic reasoning tasks. It seeks to investigate whether distinct puzzle formats embody fundamentally identical underlying structures, and serves as a benchmark resource for efficient puzzle generation methodologies.
提供机构:
纽约市立大学; 戴维森学院; 菲利普斯学院
创建时间:
2026-05-13
搜集汇总
数据集介绍

构建方式
该数据集基于英国语言学奥林匹克竞赛(UKLO)公开的Rosetta Stone谜题构建。研究者首先收集了96道Rosetta Stone谜题,包含谜面、上下文说明及官方解答。随后,针对每道谜题,将其中的双语对应句子或短语对分离,并将目标语言句子保持原顺序,而将英语翻译句子随机打乱,形成一组待匹配的条目。同时,保留原谜题附带的语言背景说明(preamble),以确保推理信息的完整性。通过这一系统化的转换流程,每道Rosetta Stone谜题均被转化为一道结构对等的Match-Up谜题,最终形成了包含192个文件(96对配对谜题)的语料库。
特点
该数据集的核心特点在于其配对设计,同一谜题以Rosetta Stone和Match-Up两种格式呈现,为比较不同谜题格式对推理过程的影响提供了独特资源。实验表明,人类与大型语言模型(LLM)在Match-Up谜题上均呈现出“全或无”的解决模式——要么完全正确,要么全部错误,尤其在涉及形态学主题的短文本谜题中表现显著。此外,数据集涵盖了从突破级到第二轮的不同难度以及形态学、句法学、语义学等多种语言学主题,并包含了丰富的元数据。这种配对结构使得研究者能够严格评估格式转换是否改变了谜题的内在逻辑与可解性。
使用方法
使用者可将数据集中的Rosetta Stone与Match-Up谜题作为零样本推理基准,分别评估人类解题者与LLM(如GPT-5、Gemini 2.5-Pro)的推理能力。使用时应将每道谜题视为一个完整单元,仅提供谜面与背景说明,而将官方答案用于评分。对于Rosetta Stone谜题,要求模型或受试者根据给出的双语对应关系推断并翻译新的句子;对于Match-Up谜题,则需将打乱的翻译句子与源语言句子正确配对。为便于严谨评估,建议对Match-Up输出采用严格顺序检查,避免因偶然排序正确而产生的误判。
背景与挑战
背景概述
Rosetta Stone–Match-Up paired puzzles corpus由纽约市立大学等机构的研究者于2025年构建,聚焦于高中语言学奥林匹克竞赛中两种常见的谜题格式——Rosetta Stone与Match-Up。该数据集的核心研究问题在于探究这两种格式是否本质相同,从而为自动化谜题生成提供理论支撑。研究团队通过系统化转换程序,将UKLO网站上的96道Rosetta Stone谜题转化为对应的Match-Up格式,并组织了人类专家与大型语言模型(如GPT-5、Gemini 2.5-Pro)的对比实验。该语料库的创建不仅丰富了语言学推理基准测试的资源,还为理解人类与机器在语言分析中的认知差异提供了独特视角,在计算语言学和人工智能评估领域具有重要影响力。
当前挑战
该数据集面临的核心挑战源于语言学谜题自身的复杂性与稀缺性。首先,高质量谜题的创作需要深厚的语言学专长,且缺乏公认的质量评估标准,导致可用的原生谜题数量有限。其次,Rosetta Stone与Match-Up格式的转换并非总是可行:部分谜题涉及多模板动词系统等复杂结构,无法直接转换,需额外启发式规则。在构建过程中,研究人员必须确保转换后的Match-Up谜题保留原谜题的逻辑完整性与推理充分性,同时避免因格式变化引入无意识线索。此外,实验表明,无论是人类还是大语言模型,在解决Match-Up谜题时均呈现“全或无”模式,尤其是在形态学主题的短字符串谜题中,这揭示了语言推理中格式依赖的深层次困难。
常用场景
经典使用场景
在语言学奥林匹克竞赛与计算语言学交叉研究领域,Rosetta Stone–Match-Up paired puzzles corpus 为评估人类与大型语言模型在语言谜题推理能力上的异同提供了标准化的测试平台。该数据集包含96对原始罗塞塔石碑谜题及其对应的匹配式谜题,覆盖形态学、句法学、语义学等核心语言学主题,并附有不同难度级别的基准表现数据。研究者常利用该语料库设计受控实验,系统比较人类专家与LLM在相同谜题格式下的求解策略与准确率,从而揭示两类解题者在逻辑推断、模式识别及语言资源依赖上的本质差异。
实际应用
在实际应用中,该数据集直接服务于语言学奥林匹克竞赛的题库扩充与质量保障。竞赛组织者可利用格式转换算法,将有限的罗塞塔石碑谜题高效转化为结构等效的匹配式变体,从而在保持难度与主题平衡的前提下快速生成新题目。同时,该语料库为语言教育技术公司提供了开发自适应学习系统的训练资源——通过分析学生对不同谜题格式的响应模式,智能辅导工具可精准定位其在语法推理上的薄弱环节。对于机器翻译研究,匹配式谜题中短语级对齐任务的设计思路,为评估跨语言语义等价判断的模型性能提供了新颖的测试维度。
衍生相关工作
该数据集的发布直接催生了一系列后续研究,其中最具代表性的是LingOly-TOO数据集,它通过系统性引入正字法混淆策略,生成了罗塞塔石碑谜题的变体版本,用以分离模型的知识记忆与真实推理能力。另一经典工作modeLing则受此启发,聚焦于低资源语言场景,邀请专家编写全新谜题以填补现有语料库的语种覆盖空白。在方法层面,研究团队提出的格式转换算法已被应用于分析LLM的思维链推理过程,相关论文通过比较模型在原始与转换谜题上的错误模式,论证了当前主流模型在跨格式泛化时仍存在显著的‘全有或全无’行为,为设计更鲁棒的推理评估基准指明了方向。
以上内容由遇见数据集搜集并总结生成



