CPG-EVAL

Name: CPG-EVAL
Creator: 早稻田大学教育學院與綜合藝術和科學學院
Published: 2025-04-18 02:01:50
License: 暂无描述

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

https://github.com/wd-github-2017/CPG-EVAL

下载链接

链接失效反馈

官方服务：

资源简介：

CPG-EVAL是一个专门为评估大型语言模型在汉语作为外语教学环境中教学语法知识而设计的多级别基准。该数据集由早稻田大学教育學院與綜合藝術和科學學院创建，包含739个教学语法项目和对应语言实例，以及为了评估模型抗干扰能力而设计的高度混淆实例。数据集基于《汉语语法学习手册》构建，涵盖从初级到高级的所有水平，并为每个语法项目提供了9个示例句子，总计6651个合成句子，用于构建基准问题。

CPG-EVAL is a multi-level benchmark specifically designed to evaluate large language models' pedagogical grammar knowledge in the context of teaching Chinese as a foreign language. This dataset was created by the Faculty of Education and the Faculty of Comprehensive Arts and Sciences of Waseda University. It contains 739 pedagogical grammar items and their corresponding linguistic examples, as well as highly confusing examples designed to assess the model's anti-interference ability. Constructed based on the *Handbook of Chinese Grammar Learning*, the dataset covers all proficiency levels from beginner to advanced, and provides 9 example sentences for each grammar item, totaling 6,651 synthetic sentences used to build benchmark questions.

提供机构：

早稻田大学教育學院與綜合藝術和科學學院

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

CPG-EVAL数据集的构建基于《汉语语法学习手册》（CGLM）中的语法知识框架，通过专家验证的教学语法分类系统，选取了739个具有教学意义的语法项。语言实例的构建采用了合成数据方法，首先使用DeepSeek-v3重写CGLM中的官方例句，随后由三位母语为中文的专家进行审核，确保合成句子符合汉语语言习惯并准确保留了与原始例句的语法关系。最终构建了6651个合成句子作为语言实例。此外，还设计了高度混淆的实例以评估模型对干扰的抵抗能力。

特点

CPG-EVAL是首个专门评估大语言模型在对外汉语教学中语法教学能力的基准测试。其特点包括多层次的评估任务设计（SINGLE、BATCH、SIM-GRA、CAT-GRA和CON-INS），覆盖从简单的语法识别到复杂的语法区分和抗干扰能力测试。数据集基于权威的汉语教学语法框架，确保了评估的专业性和教学相关性。此外，通过合成数据和专家审核的结合，既保证了数据的质量，又提高了数据的多样性和覆盖面。

使用方法

CPG-EVAL的使用方法包括在零样本设置下评估大语言模型在五个任务类型中的表现。评估时，模型需根据提示判断语言实例与语法项的对应关系，输出简单的二元结果（T/F）或选择最佳匹配的语法项。通过正则表达式提取模型输出并计算准确率，确保评估的客观性。该数据集适用于研究者和开发者评估和优化模型在对外汉语教学中的语法教学能力，为教育场景中的模型选择和优化提供依据。

背景与挑战

背景概述

CPG-EVAL是由早稻田大学教育综合科学学院的Dong Wang于2025年提出的首个专门评估大语言模型（LLMs）在汉语作为外语教学情境下教学语法能力的基准测试。该数据集基于《汉语语法学习手册》（CGLM）的语法知识框架构建，包含739个具有教学意义的语法项目，通过人工精炼的合成数据形成了包含五种任务类型的评估体系。作为生成式AI在教育领域应用的重要评估工具，CPG-EVAL填补了现有基准测试在语言教学专业评估方面的空白，为教育工作者、政策制定者和模型开发者提供了系统评估LLMs教学语法能力的理论框架和实证依据。

当前挑战

CPG-EVAL面临的挑战主要体现在两个维度：在领域问题层面，需解决LLMs对教学语法规则的识别精度不足问题，特别是在处理否定实例（语法不匹配）时普遍存在的假阳性错误；同时要克服模型对形式相似但语法功能不同的语言实例的干扰抵抗能力薄弱问题。在构建过程中，主要挑战包括：1）从专业教学语法体系中提取可计算化评估的语法特征，需平衡语言学专业性与机器学习可操作性；2）构建具有教学代表性的混淆实例集，要求同时满足语言形式相似性和语法功能差异性；3）设计多层级评估任务时需控制变量差异，确保各任务类型能有效区分不同维度的语法能力。

常用场景

经典使用场景

在汉语作为第二语言教学的背景下，CPG-EVAL数据集被广泛应用于评估大型语言模型（LLMs）在语法教学中的能力。该数据集通过设计五种不同的任务类型（SINGLE、BATCH、SIM-GRA、CAT-GRA和CON-INS），系统地测试模型在语法识别、细粒度语法区分、类别语法选择以及抗干扰能力等方面的表现。教育研究者和开发者可以利用CPG-EVAL来验证模型在真实教学场景中的适用性，从而为语言教育工具的开发和优化提供科学依据。

衍生相关工作

CPG-EVAL的推出激发了多项相关研究，尤其是在语言教育领域的模型评估和优化方向。例如，部分研究基于CPG-EVAL的任务设计，进一步扩展了针对其他语言（如英语、西班牙语）的语法评估基准。此外，一些工作聚焦于模型微调，利用CPG-EVAL的数据提升LLMs在语法识别和教学对齐性上的表现。这些衍生研究不仅丰富了语言教育技术的理论框架，也为实际应用场景提供了更多可能性。

数据集最近研究