CATIE-AQ/piaf_fr_prompt_qa

Name: CATIE-AQ/piaf_fr_prompt_qa
Creator: CATIE-AQ
Published: 2025-02-10 15:49:20
License: 暂无描述

Hugging Face2025-02-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CATIE-AQ/piaf_fr_prompt_qa

下载链接

链接失效反馈

官方服务：

资源简介：

piaf_fr_prompt_qa是法语提示数据集（DFP）的一个子集，包含387,408行数据，适用于问答任务。原始数据来自PIAF数据集，并通过FrenchQA数据集中的SQUAD 2.0格式的问题进行了增强。通过应用一系列提示，构建了输入和目标列，使其格式与Muennighoff等人创建的xP3数据集一致。数据集包含42个提示，分为训练集，没有验证集和测试集。

piaf_fr_prompt_qa is a subset of the French Prompt Dataset (DFP), containing 387,408 rows of data and designed for question answering tasks. Its raw data originates from the PIAF dataset, and it is augmented with questions formatted in SQUAD 2.0 from the FrenchQA dataset. By applying a series of prompts, the input and target columns were constructed to align with the format of the xP3 dataset created by Muennighoff et al. The dataset includes 42 prompts and is split exclusively into a training set, with no validation or test sets provided.

提供机构：

CATIE-AQ

原始信息汇总

piaf_fr_prompt_qa 数据集概述

基本信息

语言: 法语
许可证: MIT
数据规模: 100K<n<1M
任务类别: 问答
标签: DFP, french prompts
标注创建者: found
语言创建者: found
多语言性: 单语种
源数据集: etalab-ia/piaf

数据集详情

名称: piaf_fr_prompt_qa
概述: 该数据集是 Dataset of French Prompts (DFP) 的一个子集，包含 387,408 条数据，适用于问答任务。原始数据来自 PIAF 数据集，并增加了 FrenchQA 数据集中的问题，格式为 SQUAD 2.0。通过应用一系列提示，构建了输入和目标列，以获得与 xP3 数据集相同的格式。

提示列表

数量: 42 个提示
逻辑: 提示采用直陈式，包括 tutoiement 和 vouvoiement 形式。

数据集划分

训练集: 387,408 条样本
验证集: 无
测试集: 无

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/piaf_fr_prompt_qa")

引用

原始数据

@InProceedings{keraron-EtAl:2020:LREC, author = {Keraron, Rachel and Lancrenon, Guillaume and Bras, Mathilde and Allary, FrÃ©dÃ©ric and Moyse, Gilles and Scialom, Thomas and Soriano-Morales, Edmundo-Pavel and Staiano, Jacopo}, title = {Project PIAF: Building a Native French Question-Answering Dataset}, booktitle = {Proceedings of The 12th Language Resources and Evaluation Conference}, month = {May}, year = {2020}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {5483--5492}, url = {https://www.aclweb.org/anthology/2020.lrec-1.673} }

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

搜集汇总

数据集介绍

构建方式

在法语自然语言处理领域，构建高质量问答数据集对模型性能至关重要。piaf_fr_prompt_qa数据集源自PIAF法语问答数据集，通过整合FrenchQA数据集中SQUAD 2.0格式的问题进行增强。其核心构建策略在于应用42种精心设计的提示模板，这些模板涵盖直陈式、第二人称单数（tutoiement）与第二人称复数（vouvoiement）三种语体，将原始问题与上下文动态组合，最终形成与xP3数据集相兼容的结构化输入-目标列格式。

特点

该数据集在法语问答任务中展现出独特的语言学价值。其最显著的特征在于通过多元化的提示模板系统，模拟了真实对话中不同社交语境下的提问方式，为模型提供了丰富的语言风格训练样本。数据集包含387,408条训练样本，规模适中且质量可靠，所有数据均基于权威的PIAF原始语料构建，确保了内容的准确性与领域代表性。这种设计使得模型能够学习到更具泛化能力的语言理解模式。

使用方法

对于研究人员而言，该数据集可直接用于训练或评估法语问答模型。通过Hugging Face的datasets库，使用load_dataset函数即可便捷加载数据集。数据格式已预处理为统一的提示-答案对，用户可直接将其输入到预训练语言模型中进行微调。由于数据集未划分验证集与测试集，建议使用者根据具体研究需求自行分割数据，以进行模型性能的客观评估与比较分析。

背景与挑战

背景概述

在自然语言处理领域，法语问答任务的研究长期面临高质量数据稀缺的困境。为应对这一挑战，CATIE-AQ研究机构于2023年推出了piaf_fr_prompt_qa数据集，该数据集源自法国本土化问答数据集PIAF，并融合了SQUAD 2.0格式的法语增强数据。通过系统化构建42种不同语态与礼貌层级的提示模板，该数据集成功将原始问答对转化为符合xP3范式的指令微调格式，为法语大语言模型的指令遵循能力评估提供了重要基准。

当前挑战

该数据集致力于解决法语开放域问答任务中存在的语言特异性挑战，包括法语复杂语法结构解析、代词指代消解以及文化语境理解等难点。在构建过程中，研究人员面临双重挑战：一方面需要确保从PIAF到FrenchQA的数据转换过程中保持语义一致性，另一方面需设计覆盖不同社交语域（如敬语与非敬语）的提示模板，同时还要处理SQUAD 2.0格式中无答案样本的标注迁移问题，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在自然语言处理领域，法语问答任务的研究常受限于高质量标注数据的稀缺。piaf_fr_prompt_qa数据集通过整合PIAF原始语料与SQUAD格式的法语问题，并引入多样化的提示模板，为研究者提供了丰富的训练资源。其经典使用场景在于构建和评估基于提示的法语阅读理解模型，模型需根据给定的上下文段落和问题，精准提取或生成相应答案，尤其适用于探索提示工程对模型性能的影响。

解决学术问题

该数据集有效应对了法语自然语言处理中标注数据不足的挑战，为学术研究提供了大规模、结构化的问答对资源。其核心意义在于通过标准化的提示格式，促进了跨语言模型在法语语境下的适配与微调，助力研究者深入探究模型对指令的敏感性、语境理解能力以及零样本或少样本学习性能。该资源的开放共享显著降低了法语NLP研究的门槛，推动了多语言人工智能的均衡发展。

衍生相关工作

该数据集作为法语提示数据集（DFP）的重要组成部分，其构建理念与格式深受xP3等大规模多任务提示数据集的影响。相关经典工作包括基于PIAF原始数据的法语问答研究，以及利用类似提示方法对多语言大模型进行指令调优的探索。这些工作共同推动了提示学习范式在法语NLP任务中的应用，为后续研究如何优化模型对多样化、人性化指令的理解奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集