GRILE

Name: GRILE
Creator: 布加勒斯特大学数学与计算机科学学院
Published: 2025-08-20 05:27:06
License: 暂无描述

arXiv2025-08-20 更新2025-11-26 收录

下载链接：

https://zenodo.org/records/15504323

下载链接

链接失效反馈

官方服务：

资源简介：

GRILE（罗马尼亚语法推理和语言解释）是一个包含1,151个选择题的基准数据集，这些题目是从罗马尼亚高难度考试中收集的。数据集旨在评估大型语言模型在回答和解释高难度语法问题方面的能力，特别是针对低资源语言。所有数据、代码和一个公共网络演示都已发布，以促进未来的研究。

GRILE (Grammatical Reasoning and Linguistic Explanation for Romanian) is a benchmark dataset consisting of 1,151 multiple-choice questions collected from high-stakes Romanian examinations. This dataset is designed to evaluate the capabilities of large language models (LLMs) in answering and explaining complex grammatical questions, with a particular focus on low-resource languages. All data, code, and a public web demo have been released to facilitate future research.

提供机构：

布加勒斯特大学数学与计算机科学学院

创建时间：

2025-08-20

搜集汇总

数据集介绍

构建方式

在罗马尼亚语教育资源相对匮乏的背景下，GRILE数据集通过系统化采集流程构建而成。研究团队从2010至2024年间的国家级评估考试、学士学位考试及高校入学测试中，提取了1151道标准化单项选择题。采用Tesseract光学字符识别技术对原始文档进行数字化处理，结合规则脚本解析与人工抽样校验，最终形成包含题目文本、选项、标准答案及来源年份的结构化JSON数据。

特点

该数据集作为首个罗马尼亚语语法推理开放基准，具有鲜明的专业特征。题目内容全面覆盖词汇、形态、句法与语音四大语言学领域，其中句法类题目382道，形态类364道，词汇类319道，语音类86道。所有题目均源自权威的高风险考试，确保了语言规范性与评估效度，特别注重对接2021年颁布的DOOM3正字法新规范，为低资源语言教育技术研究提供了精准的测量工具。

使用方法

研究者可通过两种核心提示策略利用该数据集：直接提问的零样本测试可评估模型基础性能，而思维链提示则能激发模型的逐步推理能力并生成语法解释。数据集支持少样本学习实验，允许注入1-5个示例题目构建上下文学习环境。配套发布的交互式网络应用将题目库与经过语言学家验证的AI解释相结合，为语言学习者提供即时的语法推理反馈，推动教育场景下的可解释人工智能研究。

背景与挑战

背景概述

在自然语言处理领域，大规模语言模型虽已取得显著进展，但针对低资源语言的语法推理与教学应用研究仍相对薄弱。GRILE数据集由布加勒斯特大学数学与计算机科学学院的研究团队于2025年创建，旨在填补罗马尼亚语语法评估领域的空白。该数据集收录了来自国家评估、学士学位考试及大学入学测试的1151道单项选择题，聚焦于探究语言模型在语法推理与解释生成方面的双重能力。作为首个公开的罗马尼亚语语法基准，GRILE为低资源语言教育技术研究提供了重要实验平台。

当前挑战

该数据集致力于解决罗马尼亚语语法自动评估的核心挑战：如何实现细粒度语法推理与教学级解释生成的统一。构建过程中面临双重困难：在数据采集层面，需通过光学字符识别技术处理历年考试文档，并克服手写体识别与格式解析的技术障碍；在标注层面，需确保题目与最新DOOM3正字法规范的对齐，同时处理边界案例中形态学与句法特征的交叉判定。当前模型在形态学规则应用和规范性解释生成方面仍存在系统性缺陷，近半数生成解释存在事实性或教学性错误，凸显了低资源语境下可信教育技术发展的现实瓶颈。

常用场景

经典使用场景

在罗马尼亚语教育技术领域，GRILE数据集作为首个公开的语法推理基准测试工具，主要应用于评估多语言大模型对复杂语法规则的掌握程度。该数据集通过提取国家评估考试、学士学位考试等高风险场景中的1151道选择题，系统检验模型在词法、形态、句法和语音四个维度的分析能力。其典型使用方式包括采用零样本提示和思维链提示策略，要求模型不仅输出正确答案，还需生成符合语言学规范的解释性文本，从而全面衡量模型在低资源语言环境下的推理质量。

衍生相关工作

该基准测试已催生系列罗马尼亚语教育技术研究，包括基于检索增强生成的语法知识库构建、针对形态学错误的定向微调方法探索等。受其启发，研究者开始系统比较单语模型与多语言模型在语法推理任务中的表现差异，推动了如RoLLaMA2等本土化模型的优化迭代。这些衍生工作正逐步形成针对低资源语言教育场景的技术范式，为构建具备文化适应性的智能辅导系统奠定基础。

数据集最近研究