RespondeoQA
收藏arXiv2026-04-23 更新2026-04-24 收录
下载链接:
https://github.com/slanglab/RespondeoQA
下载链接
链接失效反馈官方服务:
资源简介:
RespondeoQA是由马萨诸塞大学和纽约大学联合构建的首个拉丁语-英语双语问答基准数据集,包含7,800组涵盖语法、翻译、韵律分析等多元题型的问题对。数据源自19世纪至今的教学资源,包括标准化考试、竞赛题目及古籍教材扫描件,经OCR提取和人工校验后形成结构化数据。该数据集专为评估大语言模型在低资源历史语言领域的推理能力而设计,填补了拉丁语任务型评估的资源空白,可支持机器翻译、跨语言问答等研究方向。
RespondeoQA is the first Latin-English bilingual question answering benchmark dataset jointly constructed by the University of Massachusetts and New York University. It contains 7,800 question pairs covering diverse question types such as grammar, translation, and prosody analysis. The data is sourced from teaching resources spanning from the 19th century to the present, including standardized tests, competition questions, and scanned copies of ancient textbooks, and is formed into structured data after OCR extraction and manual verification. This dataset is specifically designed to evaluate the reasoning capabilities of large language models (LLMs) in low-resource historical language domains, filling the resource gap in task-oriented evaluation for Latin language tasks, and can support research directions such as machine translation and cross-lingual question answering.
提供机构:
马萨诸塞大学阿默斯特分校·曼宁信息与计算机科学学院; 纽约大学·古代世界研究所
创建时间:
2026-04-23
原始信息汇总
数据集概述:RespondeoQA
RespondeoQA 是一个用于评估双语(拉丁语-英语)问答能力的基准数据集。
核心信息
- 来源论文:由 Marisa Hudspeth、Patrick J. Burns 和 Brendan OConnor 撰写的《RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering》。
- 语言方向:拉丁语-英语双语问答。
数据内容
- 最终数据集:位于
data/final_dataset文件夹中。 - 原始资料:
- 教科书PDF扫描件:位于
data/pdfs文件夹。 - 经OCR处理后的原始文本:位于
data/raw_text文件夹。
- 教科书PDF扫描件:位于
配套代码
代码存放于 scripts 文件夹,涵盖以下流程:
- OCR处理:对PDF进行光学字符识别(
scripts/ocr/)。 - 结构化输出:通过正则表达式、大型语言模型(LLM)及人工审核将原始文本转为结构化数据(
scripts/structured_output_scripts/)。 - 模型运行:在数据集上运行LLM(
scripts/run_models_scripts/)。 - 评估:评估模型回答的正确性(
scripts/evaluation_scripts/)。
搜集汇总
数据集介绍

构建方式
RespondeoQA基准数据集由约7800个问答对构成,其构建过程融合了自动化提取与人工审核。数据源涵盖拉丁语教学材料,包括19世纪的教科书、标准化考试题目以及知识竞赛式问答。研究者首先利用OCR技术从书籍扫描件和PDF中提取文本,并借助Gemini和GPT-4o模型进行文本清洗与对齐。随后,通过正则表达式与语言模型协作,将多部分问题拆解为独立条目,并剔除含图示或上下文缺失的无效题目。在元数据标注阶段,GPT-4o对问题格式、内容类别、语言属性及推理复杂度进行零样本分类,所有自动输出均经过人工校正,以确保分类的准确性。最终,针对翻译题目,数据集补充了多条参考译文;而韵律学题目的英文指令则被翻译为拉丁语,以平衡双语代表性。
特点
该数据集具有鲜明的双语混合与多层次标注特色。所有问答对均跨越拉丁语与英语两种语言,问题指令与答案的语言可自由组合,形成英-英、拉-英、英-拉、拉-拉四种模式。内容涵盖十类知识领域,分为基于事实的知识类(如神话、历史)和需要结构化推理的技能类(如翻译、诗歌格律分析),其中技能类题目约占半数,对模型的精确语言处理能力提出更高要求。约20%的单词简答题被标注为多跳推理,要求模型整合多步信息才能得出答案。此外,翻译题目细分为无约束与有约束两类,后者强制使用特定词汇或语法结构,提升了评估的粒度与挑战性。
使用方法
使用RespondeoQA时,研究者可采用多维度评估协议。对于选择题和单词简答题,推荐使用准确率作为主要指标,其中简答题需经过小写化、去除标点及统一拉丁语正字法(如I/J与U/V归一化)等标准化处理。格律步识别题允许部分正确的累进计分,而长文本翻译题则采用BLEU分数与多条参考译文进行对比。在提示设计上,系统提示应明确模型扮演精通古典学专家的角色;选择题要求模型以字母结尾回答,简答题则限定单字输出。目前三款主流大语言模型在该基准上的表现显示,所有模型在技能类题目上均显著弱于知识类题目,且推理增强模型在诗歌格律与修辞手法任务中展现出微弱优势,但整体准确率仍有较大提升空间。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型在多语言理解与生成任务中展现出卓越能力,然而其对拉丁语等历史语言的掌握程度长期缺乏系统评估。拉丁语虽已沉寂,却拥有跨越两千余年的丰厚文献传统,并在古典教育中占据核心地位,甚至在大型语料库中位列高频语种。然而,现有拉丁语数据集多聚焦于词元或句子级分类任务,极少涉及生成式模型的问答与翻译能力评估。为此,马萨诸塞大学阿默斯特分校与纽约大学的研究人员于近期构建了RespondeoQA基准数据集,包含约7800个双语问答对,覆盖语法、格律、文学手法、翻译等多元内容,旨在填补拉丁语生成式评估资源的空白,为衡量模型在专门语言文化领域的能力提供新标尺。
当前挑战
RespondeoQA数据集所应对的核心挑战主要体现为两个层面。其一,在领域问题层面,现有问答基准普遍缺乏对低资源及历史语言的覆盖,且未能支持双语混杂的任务场景——问题与答案可交织使用拉丁语和英语,这对模型的结构化推理与语言精确性构成严峻考验。其二,在构建过程中,研究者面临多重困难:历史教材中短音符号的光学字符识别极不稳定,导致大量文本不可用;不同来源的问答需通过正则与语言模型进行对齐,且需手动校正;多部分题目需要拆分处理,同时滤除指令不清或依赖图解等无法回答的题目;此外,还需对翻译题设置约束条件并创建多个参考译文,以提升评估的稳健性。
常用场景
经典使用场景
在经典语言与人工智能交叉研究领域,RespondeoQA 作为首个专为拉丁语与英语双语问答设计的基准数据集,为评估大语言模型在历史语言理解任务中的表现提供了标准化测试平台。该数据集通过整合19世纪拉丁语教材、标准考试以及竞赛式问答(如 Certamen)中的约7,800个问题—答案对,覆盖了语法、词汇、文学、历史、地理、诗歌格律、文学修辞及翻译等多种内容类型。其经典用法在于评测模型在知识回忆与技能推理(如诗律分析、受约束翻译)上的能力差异,尤其凸显模型在处理需要结构化推理和精确语言表达的任务时存在的显著局限。这一场景不仅揭示了当代 LLM 在非主流语言上的认知边界,也为后续发展更具针对性的评估方法奠定了数据基础。
衍生相关工作
RespondeoQA 的发布催生了一系列富有启发性的后续研究。在模型评估层面,研究者基于该数据集对比了通用模型与推理强化模型(如 Qwen QwQ 和 o3-mini)在技能性任务上的表现差异,发现推理模型虽在文学修辞与诗律分析上略占优势,但整体提升有限且计算成本高昂,这促使学界重新思考推理架构在低资源历史语言场景中的适用性。在方法论延伸上,该数据集的构建流程——从 OCR 提取、问答对齐到元数据标注——已被证明可复用于其他历史语言(如古希腊语或古英语),为打造跨时代的多语言评估资源提供了蓝图。此外,受其约束翻译子集的启发,后续工作开始探索如何将显式语言规则嵌入提示模板以提升翻译精确度,并推动了将教学材料作为训练数据用于机器翻译系统微调的新方向。
数据集最近研究
最新研究方向
RespondeoQA的提出标志着双语(拉丁语-英语)问答评测领域的一项重要突破,填补了历史语言与低资源语言在生成式大语言模型评估中的显著空白。当前前沿研究聚焦于探索推理型模型(如QwQ与o3-mini)在技能导向任务(如诗歌格律分析、文学修辞识别和受控翻译)上的表现边界,发现即使具备强化学习能力的模型,在面对需要结构化推理与精确语言输出的拉丁语技能题时,仍显力有不逮。该数据集通过细粒度的问题分类(知识型与技能型)和跨语言指令设计,揭示了主流LLM在专业语言学与文化领域知识上的深层短板,为推动多语言理解、历史语言建模及低资源机器翻译的发展提供了可靠且可拓展的基准资源。
相关研究论文
- 1RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering马萨诸塞大学阿默斯特分校·曼宁信息与计算机科学学院; 纽约大学·古代世界研究所 · 2026年
以上内容由遇见数据集搜集并总结生成



