CATIE-AQ/DFP
收藏Hugging Face2025-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/DFP
下载链接
链接失效反馈官方服务:
资源简介:
DFP是一个包含113,129,978条法国提示的NLP数据集,由于版权问题,我们只能分享107,796,041条记录。它涵盖了30种不同的NLP任务,包含724个提示,这些提示以命令式、使用tu和vous的形式编写,以尽可能覆盖模型可能使用的预训练数据。数据集由4列组成:inputs, targets, dataset, task,分别表示输入文本、目标文本、数据集名称和任务名称。数据集由34个其他数据集组合而成,每个数据集都有自己的许可证。724个提示遵循cc-by-4.0许可证,可以自由应用于您自己的数据集。
DFP is an NLP dataset containing 113,129,978 French prompts, but due to licensing issues, we can only share 107,796,041 rows. It covers 30 different NLP tasks, with 724 prompts written in imperative, tutoiement, and vouvoiement forms to cover the pre-training data used by the model. The dataset consists of four columns: inputs, targets, dataset, and task, representing input text, target text, dataset name, and task name. The dataset is compiled from 34 other datasets, each with its own license. The 724 prompts are licensed under the cc-by-4.0 license, allowing for free application to your own datasets.
提供机构:
CATIE-AQ
原始信息汇总
数据集卡片:法国提示数据集 (DFP)
概述
- 任务类别: 文本分类、标记分类、问答、零样本分类、摘要、文本生成、文本到文本生成、填空、句子相似性
- 语言: 法语
- 数据集大小: 100M<n<1B
- 标签: DFP, 法语提示
- 标注创建者: 发现
- 语言创建者: 发现
- 多语言性: 单语
数据集详情
- 总行数: 113,129,978 行
- 共享行数: 107,796,041 行 (
train: 102,720,891 样本,validation: 2,584,400 样本,test: 2,490,750 样本) - NLP任务数: 30 个
- 提示数: 724 个
数据集结构
- 列:
inputs(字符串)targets(字符串)dataset(字符串)task(字符串)
数据集来源
- 创建方式: 由34个不同许可证的原始数据集创建
- 提示许可证:
cc-by-4.0 - 数据集命名:
原始数据集名称+_fr_prompt_+任务名称
任务详情
句子相似性
- 任务描述: 确定两个文本的相似度,输出为0到1之间的分数。
- 提示数: 18 个
- 示例:
inputs targets Déterminer le score de similarité entre les deux phrases suivantes. Phrase 1 : "Une femme prend et tient un bébé kangourou."<br>Phrase 2 : "Une femme prend et tient un bébé kangourou dans ses bras." 0.92
释义检测
- 任务描述: 判断两个句子是否具有相同意义,输出为"Oui"或"Non"。
- 提示数: 22 个
- 示例:
inputs targets Puis-je remplacer la phrase "À Paris, en octobre 1560, il rencontra secrètement lambassadeur dAngleterre, Nicolas Throckmorton, lui demandant un passeport pour retourner en Angleterre en passant par lÉcosse." par la phrase "En octobre 1560, il rencontra secrètement lambassadeur dAngleterre, Nicolas Throckmorton, à Paris, et lui demanda un passeport pour retourner en Écosse par lAngleterre." et que cela garde la même signification ? Non
释义生成
- 任务描述: 生成与给定句子语义相似的句子。
- 提示数: 24 个
- 示例:
inputs targets Générer une phrase qui signifie la même chose que celle-ci : "La saison NBA 1975 - 76 était la 30e saison de la National Basketball Association." La saison 1975-1976 de la National Basketball Association était la 30e saison de la NBA.
文本蕴含
- 任务描述: 判断一个假设是否适用于一个句子,输出为"vrai", "faux" 或 "incertain"。
- 提示数: 22 个
- 示例:
inputs targets Prendre lénoncé suivant comme vrai : "Diorama est le quatrième album studio du groupe australien de rock alternatif Silverchair. Sorti le 31 mars 2002 par Atlantic/. Il a remporté le ARIA Music Award 2002 du meilleur groupe et du meilleur album rock. Lalbum a été coproduit par Daniel Johns et David Bottrill. Alors que Bottrill avait travaillé sur des albums pour une variété dautres groupes, "Diorama" a marqué le premier crédit de production pour le chanteur Johns." Alors lénoncé suivant : "Daniel Johns et David Bottrill nont jamais travaillé ensemble" est "vrai", "faux", ou "incertain" ? faux



