GramQA
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/cjvt/GramQA
下载链接
链接失效反馈官方服务:
资源简介:
GramQA是一个基于语料库的语法问答评估数据集,专注于不同句法结构中的词序变化。该数据集包含13个受WALS(世界语言结构图谱)启发的语法问题,涵盖了179种语言的基于Universal Dependencies语料库的真实值,可用于跨语言词序比较和模型预测的评估。数据集最初是为基于LLM的代理语法分析系统(UD-Agent)开发的评估基准,现作为独立资源发布以供广泛使用。
对于每个问题-语言对,数据集提供了(i)主导词序模式(语料库中最频繁出现的值)和(ii)所有观察到的词序模式的完整分布及其相对频率。真实值是通过作者开发的一系列Python脚本自动获取的,这些脚本在UD树库(v2.16)的测试部分上实现了基于规则的提取过程。
数据集包含两个主要文件:udagent_eval_data.jsonl(包含1899个条目,每个条目对应一个特征-语言对)和udagent_eval_metadata.json(包含有关包含的语言、使用的UD树库、每个WALS特征关联的问题以及每个特征的可能值集的信息)。数据集适用于问答任务,特别适用于语言学和语法分析领域的研究和应用。
提供机构:
Center za jezikovne vire in tehnologije Univerze v Ljubljani
创建时间:
2026-03-03
原始信息汇总
GramQA 数据集概述
数据集基本信息
- 数据集名称: GramQA (Corpus-Grounded Evaluation Dataset for Grammatical Question Answering)
- 许可协议: CC BY-SA 4.0
- 多语言支持: 是 (Multilingual)
- 数据规模: 1K < n < 10K
- 标签: 语言学、智能体人工智能、语法分析、通用依存关系
- 任务类别: 问答
数据集描述
GramQA 是一个用于语法问答的基于语料库的评估数据集。该数据集包含 13 个受世界语言结构图谱启发的语法问题,重点关注不同句法结构中的词序变化。对于每个问题,数据集基于通用依存关系语料库为 179 种语言提供了真实值,可用于跨语言词序比较以及根据语料库证据评估模型预测。该数据集最初是作为一个基于智能体大语言模型的语法分析系统的评估基准而开发的,但现已作为独立资源发布以供更广泛地重用。
数据内容
对于每个问题-语言对,数据集包含:
- 主导词序模式(报告为语料库中最常见的证实值)。
- 所有已证实词序模式的完整分布及其相对频率。
真实值是通过作者开发的一系列 Python 脚本自动获得的,这些脚本在通用依存关系树库的测试部分上实现了基于规则的提取程序。
包含的文件
- udagent_eval_data.jsonl: 一个 JSON Lines 文件,包含 1899 个条目(每个特征-语言对一个条目)。每个条目包含 WALS 特征 ID、语言信息以及从通用依存关系数据导出的相应真实值。每个条目包含关于最频繁结果值(称为“简短答案”)以及相关特征所有可能值分布的信息。
- udagent_eval_metadata.json: 一个 JSON 文件,包含有关所包含语言、用于获取每种语言真实值的通用依存关系树库、与每个 WALS 特征相关联的特定问题以及每个特征的可能值集合的信息。
附加信息
- 作者: Luka Terčon, Kaja Dobrovoljc, Matej Klemen, Tjaša Arčon, 和 Marko Robnik-Šikonja
- 完整条目链接: http://hdl.handle.net/11356/2086
- 相关论文: https://arxiv.org/abs/2512.00214
- 脚本仓库: https://github.com/matejklemen/ud_llm/
- 引用信息:
@misc{klemen2025corpusgroundedagenticllmsmultilingual, title={Towards Corpus-Grounded Agentic LLMs for Multilingual Grammatical Analysis}, author={Matej Klemen and Tjaša Arčon and Luka Terčon and Marko Robnik-Šikonja and Kaja Dobrovoljc}, year={2025}, eprint={2512.00214}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.00214}, }
搜集汇总
数据集介绍
构建方式
在语言类型学研究的背景下,GramQA数据集的构建依托于世界语言结构图谱(WALS)的理论框架,聚焦于跨语言句法结构的词序变异问题。其核心构建方法是通过一系列自动化Python脚本,对通用依存关系(Universal Dependencies)语料库v2.16的测试部分实施基于规则的提取程序。该过程系统性地从179种语言的UD树库中,自动计算并汇总了13个语法特征问题对应的词序模式分布,不仅识别出每个语言-特征对中最具优势的词序,还完整记录了所有观测到的词序变体及其相对频率,从而确保了数据来源的客观性与可复现性。
特点
GramQA数据集的一个显著特点是其严格的语料库证据基础,所有真值均直接源自大规模标注的通用依存关系树库,而非依赖人工直觉或理论预设。数据集以多语言覆盖为特色,囊括了1899个语言-特征对,为跨语言比较提供了丰富的实证基础。其数据结构设计精良,不仅提供简洁的“主要答案”,还包含了完整的词序分布频谱,使得研究者能够深入探究语言内部的变异性和主导趋势,为评估计算模型对复杂语法现象的捕捉能力提供了多维度的精细标准。
使用方法
该数据集主要服务于语法问答任务的评估基准,尤其适用于检验智能体式大语言模型在跨语言语法分析中的性能。使用者可通过加载提供的JSON Lines文件(udagent_eval_data.jsonl)获取结构化数据,将模型对特定语言语法问题的预测结果与数据集中基于语料库统计得出的真值分布进行对比。配合元数据文件(udagent_eval_metadata.json),研究者可以清晰地理解每个特征的定义、语言样本来源及可能取值集合,从而设计出严谨的评估实验,推动多语言语法理解与生成模型的科学发展。
背景与挑战
背景概述
在计算语言学与多语言自然语言处理领域,对语言结构进行系统性评估一直是核心研究议题。GramQA数据集于2025年由斯洛文尼亚卢布尔雅那大学的研究团队(包括Luka Terčon、Kaja Dobrovoljc、Matej Klemen等学者)创建,其核心目标是为语法问答任务提供一个基于语料库的评估基准。该数据集从世界语言结构图谱(WALS)中汲取灵感,聚焦于跨语言词序变异问题,如主语、宾语和动词的典型顺序。通过整合通用依存(Universal Dependencies)语料库中179种语言的真实数据,GramQA旨在促进跨语言词序比较,并评估基于大语言模型的语法分析系统(如UD-Agent)的性能,从而推动多语言语法分析向更实证、更可复现的方向发展。
当前挑战
GramQA数据集所针对的领域挑战在于语法问答任务本身的高度复杂性,即如何准确、系统地评估模型对跨语言语法结构(尤其是词序变异)的理解与推理能力。传统方法往往依赖人工标注或有限的语言样本,难以全面捕捉全球语言的多样性及其在真实语料中的分布特性。在构建过程中,研究团队面临的主要挑战包括:从异构的通用依存树库中自动提取可靠的词序模式,确保规则脚本能处理不同语言的句法标注差异;以及整合多源数据(WALS特征与UD语料)时保持一致性,同时应对低资源语言数据稀疏性问题,从而生成具有统计代表性的地面真值分布。
常用场景
经典使用场景
在计算语言学和跨语言语法研究领域,GramQA数据集为评估基于大语言模型的语法分析系统提供了基准测试平台。该数据集通过整合世界语言结构图谱的语法问题与通用依存语料库的真实标注,构建了覆盖179种语言的词序变体标注集合,使得研究者能够系统性地检验模型在跨语言语法推理任务上的性能。其经典应用场景包括驱动智能体式语言模型执行多语言语法问答,从而验证模型对复杂句法结构的泛化能力与语料证据的契合程度。
解决学术问题
GramQA数据集致力于解决跨语言语法比较中的实证基础薄弱问题,为语言类型学与计算语言学的交叉研究提供了数据支撑。它通过自动化脚本从通用依存树库中提取词序分布规律,将传统依赖专家标注的语法特征转化为可计算的语料证据,从而弥合了理论语言学描述与大规模语料实证之间的鸿沟。这一数据集使得研究者能够基于真实语言使用数据评估语法预测的可靠性,推动了语法分析任务从主观判断向客观验证的范式转变。
衍生相关工作
围绕GramQA数据集衍生的经典工作主要包括UD-Agent系统的开发,这是一个基于大语言模型的智能体式语法分析框架,专门用于执行多语言语法问答任务。相关研究进一步探索了如何将语料证据融入模型推理过程,以提升语法预测的可解释性与稳健性。此外,该数据集也激发了跨语言句法泛化研究,促使学者们构建更精细的语法评估基准,推动多语言自然语言处理模型向更深层的语言学理解迈进。
以上内容由遇见数据集搜集并总结生成



