CATIE-AQ/paws-x_fr_prompt_paraphrase_detection
收藏数据集概述
paws-x_fr_prompt_paraphrase_detection 是一个专门用于法语释义检测的数据集,包含1,174,822行数据。该数据集是Dataset of French Prompts (DFP)的一个子集,原始数据来自paws-x数据集的法语部分。
数据集特点
- 语言: 法语
- 许可证: 其他
- 大小: 1M<n<10M
- 任务类别: 文本分类
- 标签: 释义检测, DFP, 法语提示
- 多语言性: 单语
- 源数据集: paws-x
数据集结构
- 训练集: 1,086,822样本
- 验证集: 44,000样本
- 测试集: 44,000样本
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/paws-x_fr_prompt_paraphrase_detection")
引用信息
原始数据
@InProceedings{pawsx2019emnlp, title = {{PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification}}, author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason}, booktitle = {Proc. of EMNLP}, year = {2019} }
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证说明
该数据集可自由用于任何目的,但使用时需对Google LLC作为数据源表示感谢。数据集按“原样”提供,不提供任何明示或暗示的保证。Google不对使用该数据集可能导致的任何直接或间接损害承担责任。



