CantoNLU
收藏arXiv2025-10-23 更新2025-10-25 收录
下载链接:
https://github.com/cantonese-nlp/CantoNLU
下载链接
链接失效反馈官方服务:
资源简介:
CantoNLU 是一个针对粤语自然语言理解(NLU)的基准数据集,由多伦多大学和安大略科技大学的研究团队创建。该数据集涵盖了七个任务,包括词义消歧、语言可接受性判断、语言检测、自然语言推理、情感分析、词性标注和依存句法分析。数据集由手动编译的词义消歧数据集、从错误跨度数据集改编的语言可接受性判断数据集以及从并行语料库中构建的语言检测数据集组成。CantoNLU旨在解决粤语语言处理领域缺乏评估框架的问题,并促进未来粤语自然语言处理研究的发展。
CantoNLU is a benchmark dataset for Cantonese Natural Language Understanding (NLU), developed by a research team from the University of Toronto and Ontario Tech University. This dataset covers seven tasks, including Word Sense Disambiguation (WSD), Linguistic Acceptability Judgment, Language Detection, Natural Language Inference (NLI), Sentiment Analysis, Part-of-Speech (POS) Tagging, and Dependency Parsing. It consists of three components: a manually compiled WSD dataset, a Linguistic Acceptability Judgment dataset adapted from the Error Span dataset, and a Language Detection dataset constructed from parallel corpora. CantoNLU aims to address the shortage of evaluation frameworks in the field of Cantonese language processing and facilitate the advancement of future Cantonese natural language processing research.
提供机构:
University of Toronto & Ontario Tech University
创建时间:
2025-10-23
搜集汇总
数据集介绍

构建方式
在粤语自然语言理解资源匮乏的背景下,CantoNLU通过多元化数据构建策略建立了七项核心任务。词汇消歧数据集采用人工编纂方式,系统收集41个多义词的109种语义及其例句;语言可接受性判断任务则通过转化机器翻译错误标注数据,构建了包含1600对句子的对比语料。语言检测任务基于平行语料库进行词汇对齐与扰动处理,生成包含四万余句的三分类数据集。其余任务分别采用机器翻译推理数据、餐厅评论情感语料及依存语法树库,形成了覆盖词汇、句法与语义的完整评估体系。
特点
作为首个系统评估粤语语言理解的基准,CantoNLU展现出鲜明的多维特征。其任务设计涵盖词汇消歧、句法标注等七类核心能力,特别在词汇层面首创了粤语多义词消歧资源。数据集构建兼顾创新性与继承性,既包含人工精标注的词汇资源,也整合了现有树库与翻译语料。评估框架采用判别式模型与生成式任务分离的设计理念,通过控制变量法比较单语模型、跨语言迁移模型与普通话基准模型的性能差异,为粤语资源建设提供了可复现的实验范式。
使用方法
该基准支持多层级模型评估流程,用户可通过加载预训练模型进行端到端微调。对于词汇消歧与语言可接受性任务,采用基于掩码表示相似度的无监督评估策略;其余分类与序列标注任务则遵循标准监督学习流程。实验设置明确区分三类模型:基于粤语语料从头训练的单语模型、在普通话模型上继续预训练的迁移模型、以及未经粤语适应的基准模型。评估指标涵盖准确率、F1值等多维度度量,依赖解析任务额外报告标记与无标记附着分数,确保评估结果的全面性与可比性。
背景与挑战
背景概述
粤语作为全球约8500万人使用的汉藏语系重要分支,长期面临资源匮乏的困境。2025年,由乔治城大学与多伦多大学联合团队发布的CantoNLU基准测试集,首次系统性地构建了涵盖词义消歧、语法可接受性判断等七项自然语言理解任务的评估框架。该数据集通过整合人工标注与跨语言迁移技术,填补了粤语在计算语言学领域标准化评估工具的空白,为低资源语言的表示学习研究提供了重要范本。
当前挑战
在解决粤语自然语言理解任务时,面临词汇歧义消解与语法结构特异性两大核心挑战。粤语独特的双宾结构语序、丰富的句末助词体系与灵活的重叠构词法,显著增加了语义解析的复杂度。数据集构建过程中,受限于粤语书面语料稀缺性,需通过机器翻译平行语料重构与人工标注相结合的方式突破数据瓶颈,同时需克服粤语-普通话混合文本中代码转换现象对语言检测任务造成的干扰。
常用场景
经典使用场景
在粤语自然语言理解研究中,CantoNLU作为首个综合性评估基准,其经典应用场景集中于系统化评测模型对粤语语法结构与语义关系的解析能力。该数据集通过词义消歧、句法可接受性判断等七项任务,为研究者提供了多维度分析模型在低资源语言环境下泛化性能的实验平台,尤其在探究粤语独特语法特征(如双宾语结构与助词系统)对模型表现的影响方面具有重要价值。
解决学术问题
CantoNLU有效解决了粤语自然语言处理领域长期存在的评估标准缺失问题。通过构建覆盖词汇、句法与语义的完整任务体系,该数据集为跨语言迁移学习理论提供了实证基础,揭示了粤语适配模型在语义任务中的优势与单语模型在句法任务中的潜力。其创新性的词义消歧资源首次实现了对粤语多义词的语义层面量化评估,填补了方言语言资源建设的关键空白。
衍生相关工作
CantoNLU的发布催生了系列粤语计算语言学的重要研究。基于其评估框架,Jiang等人开发了YueT5系列预训练模型,Cheng团队构建了融合文化知识的HKCanto-Eval基准。该数据集还启发了对粤语-普通话平行语料库的深度挖掘,推动了对汉字文化圈内语言迁移机理的理论探索,为东南亚地区方言计算模型的建设提供了范式参考。
以上内容由遇见数据集搜集并总结生成



