five

CATIE-AQ/allocine_fr_prompt_sentiment_analysis

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/allocine_fr_prompt_sentiment_analysis
下载链接
链接失效反馈
官方服务:
资源简介:
**allocine_fr_prompt_sentiment_analysis** 是法国提示数据集(DFP)的一个子集,包含560万行数据,用于二元情感分析任务。原始数据来源于allocine数据集,通过应用28个提示来构建输入和目标列,以匹配xP3数据集的格式。数据集分为训练集(4,480,000样本)、验证集(560,000样本)和测试集(560,000样本)。

**allocine_fr_prompt_sentiment_analysis** 是法国提示数据集(DFP)的一个子集,包含560万行数据,用于二元情感分析任务。原始数据来源于allocine数据集,通过应用28个提示来构建输入和目标列,以匹配xP3数据集的格式。数据集分为训练集(4,480,000样本)、验证集(560,000样本)和测试集(560,000样本)。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

基本信息

  • 名称: allocine_fr_prompt_sentiment_analysis
  • 语言: 法语
  • 许可证: MIT
  • 数据量: 1M<n<10M
  • 任务类别: 文本分类
  • 标签: 二元情感分析, DFP, 法语提示
  • 注释创建者: 发现
  • 语言创建者: 发现
  • 多语言性: 单语
  • 源数据集: allocine

摘要

allocine_fr_prompt_sentiment_analysisDataset of French Prompts (DFP) 的一个子集。它包含 5,600,000 行数据,适用于二元情感分析任务。原始数据(无提示)来自 Blard 的 allocine 数据集。通过应用一系列提示(见下文),构建了输入和目标列,从而获得了与 Muennighoff 等人的 xP3 数据集相同的格式。

提示列表

该数据集使用了 28 个提示,这些提示采用直陈式语气,包括“你”和“您”的形式。以下是部分提示示例:

Commentaire : "+review+" Le commentaire est-il positif ou négatif ?,
Avis : "+review+" Lavis est-il positif ou négatif ?,
Critique : "+review+" La critique est-elle positive ou négative ?,
Evaluation : "+review+" Lévaluation est-elle positive ou négative ?,
Ce commentaire sur le produit est-il positif ou négatif ? Commentaire : "+review+" Réponse :,
Cet avis sur le produit est-il positif ou négatif ? Avis : "+review+" Réponse :,
Cette critique sur le produit est-elle positive ou négative ? Critique : "+review+" Réponse :,
Cette évaluation sur le produit est-elle positive ou négative ? Evaluation : "+review+" Réponse :,
Commentaire : "+review+" Ce commentaire sur le produit exprime-t-il un sentiment négatif ou positif ?,
Avis : "+review+" Cet avis sur le produit exprime-t-il un sentiment négatif ou positif ?,
Critique : "+review+" Cette critique sur le produit exprime-t-il un sentiment négatif ou positif ?,
Evaluation : "+review+" Cette évaluation sur le produit exprime-t-il un sentiment négatif ou positif ?,
Ce commentaire sur le produit a-t-il un ton négatif ou positif ? Commentaire : "+review+" Réponse :,
Cet avis sur le produit a-t-il un ton négatif ou positif ? Avis : "+review+" Réponse :,
Cette critique sur le produit a-t-il un ton négatif ou positif ? Evaluation : "+review+" Réponse :,
Cette évaluation sur le produit a-t-il un ton négatif ou positif ? Avis : "+review+" Réponse :,
Voici un commentaire laissé par un client sur un produit. Diriez-vous quil est négatif ou positif ? Commentaire : "+review,
Voici un avis laissé par un client sur un produit. Diriez-vous quil est négatif ou positif ? Avis : "+review,
Voici une critique laissée par un client sur un produit. Diriez-vous quelle est négative ou positive ? Critique : "+review,
Voici une évaluation laissée par un client sur un produit. Diriez-vous quelle est négative ou positive ? Evaluation : "+review,
Commentaire du produit : "+review+" Ce commentaire dépeint le produit sous un angle négatif ou positif ?,
Avis du produit : "+review+" Cet avis dépeint le produit sous un angle négatif ou positif ?,
Critique du produit : "+review+" Cette critique dépeint le produit sous un angle négatif ou positif ?,
Evaluation du produit : "+review+" Cette évaluation dépeint le produit sous un angle négatif ou positif ?,
Le commentaire suivant exprime quel sentiment ? Commentaire +review,
Lavis suivant exprime quel sentiment ? Avis +review,
La critique suivante exprime quel sentiment ? Critique +review,
Lévaluation suivante exprime quel sentiment ? Evaluation +review

特征使用

在上述提示列表中,reviewtargets 是从以下代码构造的:

allocine = load_dataset(allocine) review = allocine[train][i][review] targets = str(allocine[train][i][label]).replace("0", "neg").replace("1","pos")

数据集划分

  • train: 4,480,000 样本
  • valid: 560,000 样本
  • test: 560,000 样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/allocine_fr_prompt_sentiment_analysis")

引用

原始数据

Théophile Blard, French sentiment analysis with BERT, (2020), GitHub repository, https://github.com/TheophileBlard/french-sentiment-analysis-with-bert

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

MIT

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作