CATIE-AQ/wikinews-fr-100_fr_prompt_keywords_extraction
收藏wikinews-fr-100_fr_prompt_keywords_extraction 数据集概述
摘要
wikinews-fr-100_fr_prompt_keywords_extraction 是 Dataset of French Prompts (DFP) 的一个子集。该数据集包含 2,100 条记录,适用于关键词提取任务。原始数据(不含提示)来自 wikinews-fr-100 数据集。通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。
提示列表
该数据集使用了 21 个提示,这些提示采用直陈式,包括 tutoiement 和 vouvoiement 形式。具体提示如下:
Extraire les mots clés importants du texte suivant : +text,
Extrais les mots clés importants du texte suivant : +text,
Extrayez les mots clés importants du texte suivant : +text,
Isoler les mots clés importants du texte suivant : +text,
Isole les mots clés importants du texte suivant : +text,
Isolez les mots clés importants du texte suivant : +text,
Dégager des mots clés dans le texte : +text,
Dégage des mots clés dans le texte : +text,
Dégagez des mots clés dans le texte : +text,
Générer des mots clés issus du texte suivant : +text,
Génère des mots clés issus du texte suivant : +text,
Générez des mots clés issus du texte suivant : +text,
Trouver les mots clés du texte : +text,
Trouve les mots clés du texte : +text,
Trouvez les mots clés du texte : +text,
Repérer les mots clés importants présents dans le texte suivant : +text,
Repère les mots clés importants présents dans le texte suivant : +text,
Repérez les mots clés importants présents dans le texte suivant : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text
数据集划分
train包含 2,100 个样本- 无
valid划分 - 无
test划分
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/wikinews-fr-100_fr_prompt_keywords_extraction")
引用
原始数据
- (Boudin, 2013) Florian Boudin. 2013. [TALN Archives : a digital archive of French research articles in Natural Language Processing (TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue) [in French]][boudin-2013]. In Proceedings of TALN 2013 (Volume 2: Short Papers), pages 507–514, Les Sables d’Olonne, France. ATALA.
- (Boudin and Gallina, 2021) Florian Boudin and Ygor Gallina. 2021. [Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness][boudin-2021]. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4185–4193, Online. Association for Computational Linguistics.
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证
cc-by-4.0



