CATIE-AQ/taln-archives_fr_prompt_keywords_extraction
收藏taln-archives_fr_prompt_keywords_extraction 数据集概述
概要
taln-archives_fr_prompt_keywords_extraction 是 Dataset of French Prompts (DFP) 的一个子集。
该数据集包含 24,507 条记录,可用于关键词提取任务。
原始数据(不含提示)来自 taln-archives 数据集。
通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。
使用的提示
列表
该数据集创建了 21 个提示。这些提示的逻辑包括使用直陈式、使用“你”和“您”的形式。
plaintext
Extraire les mots clés importants du texte suivant : +text,
Extrais les mots clés importants du texte suivant : +text,
Extrayez les mots clés importants du texte suivant : +text,
Isoler les mots clés importants du texte suivant : +text,
Isole les mots clés importants du texte suivant : +text,
Isolez les mots clés importants du texte suivant : +text,
Dégager des mots clés dans le texte : +text,
Dégage des mots clés dans le texte : +text,
Dégagez des mots clés dans le texte : +text,
Générer des mots clés issus du texte suivant : +text,
Génère des mots clés issus du texte suivant : +text,
Générez des mots clés issus du texte suivant : +text,
Trouver les mots clés du texte : +text,
Trouve les mots clés du texte : +text,
Trouvez les mots clés du texte : +text,
Repérer les mots clés importants présents dans le texte suivant : +text,
Repère les mots clés importants présents dans le texte suivant : +text,
Repérez les mots clés importants présents dans le texte suivant : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text
数据集划分
train包含 24,507 个样本- 无
valid划分 - 无
test划分
如何使用
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/taln-archives_fr_prompt_keywords_extraction")
引用
原始数据
- (Boudin, 2013) Florian Boudin. 2013. TALN Archives : a digital archive of French research articles in Natural Language Processing (TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue) [in French]. In Proceedings of TALN 2013 (Volume 2: Short Papers), pages 507–514, Les Sables d’Olonne, France. ATALA.
- (Boudin and Gallina, 2021) Florian Boudin and Ygor Gallina. 2021. Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4185–4193, Online. Association for Computational Linguistics.
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证
cc-by-4.0



