five

CATIE-AQ/taln-archives_fr_prompt_keywords_extraction

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/taln-archives_fr_prompt_keywords_extraction
下载链接
链接失效反馈
官方服务:
资源简介:
taln-archives_fr_prompt_keywords_extraction数据集是从法语提示数据集(DFP)中提取的一个子集,专门用于关键词提取任务。该数据集包含24,507行数据,通过应用21个不同的提示来构建输入和目标列,以匹配xP3数据集的格式。这些提示以不同的语气(如正式和非正式)提出,旨在从文本中提取关键词。数据集的使用示例和引用信息也在README中提供,许可证为cc-by-4.0。
提供机构:
CATIE-AQ
原始信息汇总

taln-archives_fr_prompt_keywords_extraction 数据集概述

概要

taln-archives_fr_prompt_keywords_extractionDataset of French Prompts (DFP) 的一个子集。
该数据集包含 24,507 条记录,可用于关键词提取任务。
原始数据(不含提示)来自 taln-archives 数据集。
通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

使用的提示

列表

该数据集创建了 21 个提示。这些提示的逻辑包括使用直陈式、使用“你”和“您”的形式。

plaintext Extraire les mots clés importants du texte suivant : +text,
Extrais les mots clés importants du texte suivant : +text,
Extrayez les mots clés importants du texte suivant : +text,
Isoler les mots clés importants du texte suivant : +text,
Isole les mots clés importants du texte suivant : +text,
Isolez les mots clés importants du texte suivant : +text,
Dégager des mots clés dans le texte : +text,
Dégage des mots clés dans le texte : +text,
Dégagez des mots clés dans le texte : +text,
Générer des mots clés issus du texte suivant : +text,
Génère des mots clés issus du texte suivant : +text,
Générez des mots clés issus du texte suivant : +text,
Trouver les mots clés du texte : +text,
Trouve les mots clés du texte : +text,
Trouvez les mots clés du texte : +text,
Repérer les mots clés importants présents dans le texte suivant : +text,
Repère les mots clés importants présents dans le texte suivant : +text,
Repérez les mots clés importants présents dans le texte suivant : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text,
Indiquer les mots clés du texte : +text

数据集划分

  • train 包含 24,507 个样本
  • valid 划分
  • test 划分

如何使用

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/taln-archives_fr_prompt_keywords_extraction")

引用

原始数据

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

cc-by-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作