GETALP/flue

Name: GETALP/flue
Creator: GETALP
Published: 2024-01-18 11:03:45
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/GETALP/flue

下载链接

链接失效反馈

官方服务：

资源简介：

FLUE是一个用于评估法语NLP系统的基准测试，类似于GLUE基准测试。它旨在促进未来的可重复实验，并分享在法语语言上的模型和进展。数据集包含多个任务，如文本分类、释义、自然语言推理、动词和名词的语义消歧等。数据集中的所有数据均为法语。数据集的结构包括多个配置，如CLS、PAWS-X、XNLI和WSD-V，每个配置都有不同的数据字段和分割。数据集的创建是通过众包和机器生成的方式进行的，并且数据集的许可证信息因任务而异。

提供机构：

GETALP

原始信息汇总

数据集概述

基本信息

数据集名称: FLUE
语言: 法语
许可: 未知
多语言性: 单语种
数据集大小: 10K<n<100K
源数据: 原始数据
任务类别: 文本分类
任务ID: 意图分类、语义相似性分类、情感分类
标签: Word Sense Disambiguation for Verbs

配置信息

CLS

特征:
- text: 字符串
- label: 类别标签，包括 negative 和 positive
- idx: 整数
分割:
- train: 5997 个样本，3853279 字节
- test: 5999 个样本，3852344 字节
下载大小: 314687066 字节
数据集大小: 7705623 字节

PAWS-X

特征:
- sentence1: 字符串
- sentence2: 字符串
- label: 整数
- idx: 整数
分割:
- validation: 1988 个样本，522013 字节
- test: 2000 个样本，526953 字节
- train: 49399 个样本，13096677 字节
下载大小: 30282057 字节
数据集大小: 14145643 字节

XNLI

特征:
- premise: 字符串
- hypo: 字符串
- label: 类别标签，包括 contradiction, entailment, neutral
- idx: 整数
分割:
- validation: 2490 个样本，520022 字节
- test: 5010 个样本，1048999 字节
- train: 392702 个样本，87373154 字节
下载大小: 483963712 字节
数据集大小: 88942175 字节

WSD-V

特征:
- sentence: 字符串序列
- pos_tags: 字符串序列
- lemmas: 字符串序列
- fine_pos_tags: 字符串序列
- disambiguate_tokens_ids: 整数序列
- disambiguate_labels: 字符串序列
- idx: 字符串
分割:
- train: 269821 个样本，206869215 字节
- test: 3121 个样本，2722232 字节
下载大小: 38303600 字节
数据集大小: 209591447 字节

配置名称

CLS
PAWS-X
WSD-V
XNLI

搜集汇总

数据集介绍

构建方式

在法语自然语言处理领域，FLUE数据集借鉴了GLUE基准的设计理念，通过整合多个现有任务的数据集构建而成。其构建过程涉及从原始文献中提取法语文本，并依据任务需求进行结构化重组。具体而言，文本分类任务源自亚马逊产品评论，通过将评分映射为情感标签形成二元分类数据；复述识别与自然语言推理任务则分别选取PAWS-X和XNLI语料库中的法语部分，保留了原有的句子对与标注体系；动词词义消歧任务则基于Wiktionary资源，通过标注句子中的目标动词及其语义类别构建而成。整个数据集通过统一的配置框架整合了这些异构任务，确保了数据格式的一致性。

特点

FLUE数据集作为法语自然语言处理的综合性评估基准，其核心特点在于覆盖了多样化的语言理解任务。数据集包含文本分类、复述识别、自然语言推理及动词词义消歧四大任务，每个任务均提供标准化的训练、验证与测试划分，便于模型性能的系统性评估。数据规模适中，文本分类任务约含1.2万条样本，自然语言推理任务则超过40万条，兼顾了广度与深度。所有文本均为法语，语言风格涵盖产品评论、新闻句子及释义对等多种文体，为模型提供了丰富的语言现象考察场景。数据标注结合了众包与自动生成方法，确保了标签的可靠性与任务的挑战性。

使用方法

使用FLUE数据集时，研究者可通过HuggingFace平台直接加载特定配置以获取相应任务的数据。数据集支持以流式或批量方式读取，每个任务的数据字段均已明确结构化，例如文本分类任务包含‘text’与‘label’字段，复述识别任务则提供‘sentence1’、‘sentence2’及‘label’。用户可依据任务需求选择对应分割，如训练集用于模型参数学习，测试集用于最终性能评估。数据预处理时需注意各任务的标签编码差异，例如自然语言推理使用类别标签‘contradiction’、‘entailment’与‘neutral’。评估时应遵循数据集的官方划分，以准确衡量模型在法语语言理解上的泛化能力。

背景与挑战

背景概述

FLUE数据集由GETALP研究团队于2019年创建，旨在为法语自然语言处理领域提供一个综合性评估基准，其设计灵感源自英语领域的GLUE基准。该数据集整合了文本分类、复述识别、自然语言推理及动词词义消歧等多个核心任务，旨在推动法语语言模型的标准化评估与比较。通过汇集现有研究中的高质量法语语料，FLUE为研究者提供了统一的实验平台，显著促进了法语NLP技术的可复现性发展与模型共享，对弥补非英语语言资源不足的现状具有重要影响力。

当前挑战

FLUE数据集致力于解决法语自然语言处理中多任务统一评估的挑战，其核心在于如何构建一个能够全面反映语言理解能力的基准，涵盖语义相似性、逻辑推理及词汇歧义消除等复杂问题。在构建过程中，团队面临数据来源异构性的挑战，需从不同领域（如商品评论、新闻文本）收集并标准化法语语料，同时确保标注质量与任务间的一致性。此外，数据许可状态的模糊性以及跨任务格式整合的技术复杂性，也为数据集的可靠性与可用性增添了难度。

常用场景

经典使用场景

在法语自然语言处理领域，FLUE数据集作为一套综合性评估基准，其经典使用场景集中于模型性能的系统性评测与比较。研究者通常利用该数据集涵盖的文本分类、语义等价性判断、自然语言推理及动词词义消歧等多个任务，对预训练语言模型如FlauBERT进行端到端的微调与验证。通过统一的数据格式与评估指标，FLUE为法语NLP社区提供了标准化的实验平台，促进了模型在多样化语言理解能力上的横向对比与迭代优化。

解决学术问题

FLUE数据集有效解决了法语自然语言处理研究中缺乏统一评估框架的学术难题。它通过整合多个现有任务的法语版本，如情感分类、复述识别和文本蕴含，为研究者提供了系统性的性能衡量标准。这一基准不仅填补了法语与英语GLUE基准之间的空白，还推动了跨语言模型迁移学习、低资源语言建模以及语言特定特征分析等前沿问题的探索，显著提升了法语NLP研究的可复现性与理论深度。

衍生相关工作

围绕FLUE数据集，学术界衍生了一系列经典研究工作。最具代表性的是FlauBERT预训练模型的提出，该模型利用FLUE进行微调与评估，成为法语NLP领域的里程碑式成果。此外，基于FLUE的多任务学习框架、跨语言迁移方法以及针对动词词义消歧的专用模型也相继涌现。这些工作不仅深化了对法语语言特性的理解，还推动了如CamemBERT等后续模型的创新，形成了以FLUE为核心的法语NLP研究生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集