five

CATIE-AQ/wikinews-fr-100_fr_prompt_keywords_extraction

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/wikinews-fr-100_fr_prompt_keywords_extraction
下载链接
链接失效反馈
官方服务:
资源简介:
wikinews-fr-100_fr_prompt_keywords_extraction数据集是法语提示数据集(DFP)的一个子集,包含2100行数据,专门用于关键词提取任务。该数据集的数据来源于wikinews-fr-100数据集,并通过应用21个不同的提示来构建输入和目标列,以匹配xP3数据集的格式。这些提示包括使用指示性语气、你形式(tutoiement)和您形式(vouvoiement)的指令。数据集仅包含训练集,没有验证集和测试集。

The wikinews-fr-100_fr_prompt_keywords_extraction dataset is a subset of the French Prompt Dataset (DFP), containing 2,100 rows of data and purpose-built for keyword extraction tasks. Its data is derived from the wikinews-fr-100 dataset, and the input and target columns are constructed using 21 distinct prompts to align with the format of the xP3 dataset. These prompts include instructions employing the indicative mood, as well as the tutoiement (informal "you") and vouvoiement (formal "you") forms. This dataset only includes a training split, with no validation or test splits provided.
提供机构:
CATIE-AQ
原始信息汇总

wikinews-fr-100_fr_prompt_keywords_extraction 数据集概述

摘要

wikinews-fr-100_fr_prompt_keywords_extractionDataset of French Prompts (DFP) 的一个子集。该数据集包含 2,100 条记录,适用于关键词提取任务。原始数据(不含提示)来自 wikinews-fr-100 数据集。通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

提示列表

该数据集使用了 21 个提示,这些提示采用直陈式,包括 tutoiement 和 vouvoiement 形式。具体提示如下:

Extraire les mots clés importants du texte suivant : +text,
Extrais les mots clés importants du texte suivant : +text,
Extrayez les mots clés importants du texte suivant : +text,
Isoler les mots clés importants du texte suivant : +text,
Isole les mots clés importants du texte suivant : +text,
Isolez les mots clés importants du texte suivant : +text,
Dégager des mots clés dans le texte : +text,
Dégage des mots clés dans le texte : +text,
Dégagez des mots clés dans le texte : +text,
Générer des mots clés issus du texte suivant : +text,
Génère des mots clés issus du texte suivant : +text,
Générez des mots clés issus du texte suivant : +text,
Trouver les mots clés du texte : +text,
Trouve les mots clés du texte : +text,
Trouvez les mots clés du texte : +text,
Repérer les mots clés importants présents dans le texte suivant : +text,
Repère les mots clés importants présents dans le texte suivant : +text,
Repérez les mots clés importants présents dans le texte suivant : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text

数据集划分

  • train 包含 2,100 个样本
  • valid 划分
  • test 划分

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/wikinews-fr-100_fr_prompt_keywords_extraction")

引用

原始数据

  • (Boudin, 2013) Florian Boudin. 2013. [TALN Archives : a digital archive of French research articles in Natural Language Processing (TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue) [in French]][boudin-2013]. In Proceedings of TALN 2013 (Volume 2: Short Papers), pages 507–514, Les Sables d’Olonne, France. ATALA.
  • (Boudin and Gallina, 2021) Florian Boudin and Ygor Gallina. 2021. [Redefining Absent Keyphrases and their Effect on Retrieval Effectiveness][boudin-2021]. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4185–4193, Online. Association for Computational Linguistics.

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

cc-by-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作