SyntacticAgreement
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/albalbalba/SyntacticAgreement
下载链接
链接失效反馈官方服务:
资源简介:
这是一个为四种形态丰富的语言(意大利语、西班牙语、葡萄牙语和俄语)提供的手动策划的句法一致性测试套件数据集,用于评估神经语言模型捕捉层次句法依赖关系的能力,特别是同现现象。数据集由语言学家手动创建,以确保语法正确性、语义合理性和词汇多样性。
创建时间:
2025-08-22
原始信息汇总
SyntacticAgreement 数据集概述
数据集基本信息
- 名称:SyntacticAgreement
- 语言:西班牙语(es)、意大利语(it)、葡萄牙语(pt)、俄语(ru)
- 标签:句法、一致性、语言学、定向句法评估
- 许可证:Apache-2.0
- 任务类别:其他
- 规模:5K<n<10K
- 创建方式:专家生成
数据集描述
该数据集提供四个形态丰富语言(意大利语、西班牙语、葡萄牙语和俄语)的手动策划句法一致性测试套件,旨在评估神经语言模型捕捉层次句法依赖关系的能力,重点关注超越英语主谓一致的一致性现象。
数据集结构
每个语言以ZIP文件形式分发,包含JSON测试套件。测试套件结构包含:
- 元数据:名称、指标、作者、参考、语言、注释
- 区域元数据:区域索引到语言角色的映射
- 预测:定义跨条件预期惊讶关系的公式
- 项目:每个测试项目包含一组条件(语法与系统非语法变体)
加载方式
python from datasets import load_dataset ds = load_dataset("albalbalba/SyntacticAgreement", name="spanish", split=train, trust_remote_code=True)
评估方法
推荐使用minicons进行惊讶度和概率计算,双向模型采用Kauf & Ivanova (2023)的修正评分技术,因果模型应用Pimentel & Meister (2024)的标记化效应校正。
评分指标
推荐使用平均概率比代替二元准确率: $$ ext{Score(item)} = frac{1}{n} sum_{x_i in I} frac{p(x_t | c)}{p(x_t | c) + p(x_i | c)} $$
引用
如需使用本数据集,请引用:Assessing the Agreement Competence of Large Language Models (Táboas García & Wanner, DepLing-SyntaxFest 2025)
搜集汇总
数据集介绍

构建方式
在句法评估研究领域,SyntacticAgreement数据集采用专家生成模式,由专业语言学家手工构建测试套件。构建过程严格遵循语言学理论框架,针对意大利语、西班牙语、葡萄牙语和俄语四种形态丰富的语言,设计了包含标准测试句和对立版本的对抗性测试句。每个测试项都确保语法正确性、语义合理性和词汇多样性,通过系统化生成语法匹配与失配的句子变体,形成结构化的JSON测试套件。
特点
该数据集突出体现多语言句法协议的深度标注特性,覆盖主谓一致、性数一致等复杂语法现象。测试套件包含对抗性设计,通过插入关系从句等句法干扰项,检验模型处理长距离依赖的能力。数据集提供元数据标注体系,明确标识各语言区域的语法角色和预测公式,支持精细化评估模型对层次化句法结构的捕捉能力,为跨语言语法理论验证提供丰富素材。
使用方法
使用者可通过Hugging Face Hub直接加载数据集,按语言名称选择特定测试套件。评估时推荐采用minicons工具进行概率计算,结合双向模型和因果模型的不同评分策略。核心指标使用平均概率比而非二元准确率,通过计算语法目标句与非法替代句的条件概率比值,量化模型对语法结构的偏好强度。每个测试套件包含完整的预测公式和区域元数据,支持自动化批量评估流程。
背景与挑战
背景概述
句法一致性数据集SyntacticAgreement由语言学家团队于2025年构建,旨在评估神经语言模型在形态丰富语言中的层级句法依赖捕获能力。该数据集覆盖意大利语、西班牙语、葡萄牙语和俄语四种语言,通过精心设计的测试套件探究超越英语主谓一致性的复杂语法现象。其构建受到Linzen等人(2016)和Goldberg(2019)研究的启发,致力于推动目标句法评估领域的发展,为理解模型的语言内部表征机制提供重要基准。
当前挑战
该数据集核心挑战在于解决形态丰富语言中远距离句法依赖的建模难题,特别是面对干扰项存在时的一致性关系识别。构建过程中需克服多语言语法规则差异带来的标注复杂性,确保测试句子的语法正确性、语义合理性和词汇多样性。人工构建对抗性样本时需精确控制句法距离与吸引子插入,这对语言学专家的专业知识和标注一致性提出极高要求。
常用场景
经典使用场景
在计算语言学领域,SyntacticAgreement数据集被广泛应用于评估神经语言模型对形态丰富语言中句法依赖关系的捕捉能力。该数据集通过精心设计的测试套件,专门考察模型在意大利语、西班牙语、葡萄牙语和俄语等语言中主语-谓语一致性现象的识别能力,特别是在存在句法干扰项的长距离依赖环境中。
实际应用
在实际应用中,该数据集被广泛用于大型语言模型的语法能力诊断和优化。研究人员利用其对抗性测试套件检测模型在复杂句法环境中的薄弱环节,为模型改进提供方向。同时,它也被应用于多语言语法检查系统的开发,提升系统对形态丰富语言的处理精度。
衍生相关工作
该数据集催生了多项重要研究,包括基于SyntaxGym框架的扩展评估方法(Hu et al., 2020)和针对西班牙语的深度句法分析(Pérez-Mayos et al., 2021)。后续研究进一步开发了minicons等评估工具(Misra, 2022),并提出了改进的双向模型评分技术(Kauf & Ivanova, 2023),推动了目标句法评估领域的方法创新。
以上内容由遇见数据集搜集并总结生成



