COLE

Name: COLE
Creator: 拉瓦尔大学人工智能研究小组 (GRAIL)
Published: 2025-10-07 10:23:31
License: 暂无描述

arXiv2025-10-07 更新2025-10-08 收录

下载链接：

https://huggingface.co/COLE-public

下载链接

链接失效反馈

官方服务：

资源简介：

COLE是一个包含23个任务的法国自然语言理解（NLU）基准数据集，旨在提供一个全面且具有挑战性的评估套件，重点关注与法语相关的各种任务，包括语言现象和推理类型。该数据集旨在评估语言模型在理解、推理和解决与法语相关的特定语言现象方面的能力。COLE数据集的发布旨在促进法语NLU研究的发展，并为研究人员提供一个全面的评估工具。

COLE is a French natural language understanding (NLU) benchmark dataset encompassing 23 tasks. It is designed as a comprehensive and challenging evaluation suite focusing on diverse French-related tasks, including linguistic phenomena and reasoning types. This dataset aims to evaluate the capabilities of language models in language comprehension, reasoning, and addressing French-specific linguistic phenomena. The release of the COLE dataset is intended to promote the development of French NLU research and provide researchers with a comprehensive evaluation tool.

提供机构：

拉瓦尔大学人工智能研究小组 (GRAIL)

创建时间：

2025-10-07

原始信息汇总

COLE数据集概述

基本信息

数据集名称: COLE
发布组织: COLE-public
访问地址: https://huggingface.co/COLE-public

数据集描述

该数据集由COLE-public组织发布，具体内容和详细描述需要访问数据集详情页面获取完整信息。

下载方式

方法一：网页下载

在数据集主页的Files and Version中直接下载文件

方法二：huggingface-cli命令行工具

bash huggingface-cli download --repo-type dataset --resume-download COLE-public --local-dir COLE

方法三：使用hfd工具

bash ./hfd.sh COLE-public --dataset

方法四：环境变量方式

bash HF_ENDPOINT=https://hf-mirror.com python your_script.py

注意事项

如需下载需要登录权限的数据集，需先在Hugging Face官网获取Access Token
使用命令行工具时可添加--local-dir-use-symlinks False参数禁用文件软链接

搜集汇总

数据集介绍

构建方式

COLE基准数据集通过系统整合23个法语自然语言理解任务构建而成，涵盖单句理解、语义相似度与复述检测、推理三大类别。构建过程融合了原生法语数据集与跨语言迁移资源，包括从Allociné平台采集的影评数据、维基百科衍生的问答语料FQuAD，以及经过机器翻译适配的推理数据集。每个任务均经过语言学专家验证，确保其能够有效评估模型对法语特定语言现象（如语法性别、复杂句法结构）的捕捉能力，最终形成包含20万条训练样本的标准化评估体系。

特点

该数据集显著特点在于其任务多样性及语言深度。不仅覆盖情感分析、语法可接受性判断等基础任务，更包含针对魁北克法语的区域性表达理解任务（QFrCoRE/QFrCoRT），以及需要复杂逻辑推理的自然语言推理任务。数据集中特别设计了针对法语形态丰富性和语法结构的诊断性任务，如MultiBLiMP-Fr中的最小句对语法判断，能有效探测模型对法语语言特性的掌握程度。评估体系采用精确匹配、F1分数和准确率的组合指标，并通过复合分数实现跨任务性能的统一度量。

使用方法

使用COLE进行模型评估时需采用零样本提示学习框架。每个任务被转化为自然语言指令模板，模型仅通过提示词理解任务要求并生成预测结果。评估过程严格遵循任务特定指标：分类任务采用准确率，抽取式问答同时计算精确匹配和F1分数，语义相似度任务使用等级评分。最终通过计算23个任务得分的未加权平均值得到复合分数，该设计确保不同规模的任务对总体评估具有同等贡献力，为法语语言模型能力提供全景式评估视角。

背景与挑战

背景概述

随着自然语言处理技术的飞速发展，多语言理解评估成为推动人工智能全球化应用的关键环节。COLE数据集由拉瓦尔大学人工智能研究小组于2025年提出，旨在填补法语自然语言理解综合评估的空白。该基准整合了23项异构任务，涵盖情感分析、语法判断、语义推理等维度，特别关注法语特有的形态丰富性、语法性别与句法结构等语言现象。通过系统评估95个大语言模型，该数据集揭示了封闭权重模型与开源模型之间的性能鸿沟，为法语自然语言处理研究提供了标准化评估框架。

当前挑战

构建COLE数据集面临双重挑战：在领域问题层面，需解决法语方言变体（如魁北克法语）的语义消歧、零样本抽取式问答的精确性，以及区域性表达理解的深度建模等核心难题；在技术实现层面，数据污染风险与机器翻译语料的自然度缺失构成主要障碍，同时平衡不同法语变体在复合评分中的权重分配也需要精细设计。此外，如何通过无加权平均分体系准确反映模型在语法判断与复杂推理任务中的差异化表现，仍是亟待优化的方向。

常用场景

经典使用场景

在法语自然语言理解研究领域，COLE数据集作为综合性评估基准，其经典应用场景集中于系统化测评大语言模型的多维语言能力。该数据集通过23项任务构建了立体化评估框架，涵盖情感分析、语法可接受性判断、语义等价识别等核心维度，特别聚焦于法语特有的语言现象如复杂形态变化和语法性别系统。研究者在零样本设定下运用该数据集，能够全面考察模型对法语语法结构、语义关联和逻辑推理的深层理解能力，为法语自然语言处理技术的迭代优化提供关键参照。

衍生相关工作

COLE数据集的发布催生了系列重要衍生研究。基于其揭示的封闭权重模型优势现象，学界开展了针对法语预训练数据质量的深度分析，推动构建更纯净的法语语料库。其魁北克法语评估模块启发研究者开发了针对法语克里奥尔语等变体的专项评测基准。在方法论层面，该数据集推动零样本评估范式的优化创新，促使研究者设计更具鲁棒性的提示工程方案。部分团队受其复合评分机制启发，开始构建融合认知语言学指标的多维评估体系，持续拓展法语自然语言理解研究的深度与广度。

数据集最近研究