five

CATIE-AQ/stsb_multi_mt_fr_prompt_sentence_similarity

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/stsb_multi_mt_fr_prompt_sentence_similarity
下载链接
链接失效反馈
官方服务:
资源简介:
stsb_multi_mt_fr_prompt_sentence_similarity数据集是法语提示数据集(DFP)的一个子集,包含155,304行数据,用于语义相似性评分任务。数据来源于stsb_multi_mt数据集,仅保留了法语部分,并通过应用一系列提示来构建输入和目标列,使其格式与xP3数据集相同。数据集中使用了18种不同的提示,这些提示以直陈式、你式(tutoiement)和您式(vouvoiement)的形式提出。数据集分为训练集(103,482个样本)、验证集(27,000个样本)和测试集(24,822个样本)。

stsb_multi_mt_fr_prompt_sentence_similarity数据集是法语提示数据集(DFP)的一个子集,包含155,304行数据,用于语义相似性评分任务。数据来源于stsb_multi_mt数据集,仅保留了法语部分,并通过应用一系列提示来构建输入和目标列,使其格式与xP3数据集相同。数据集中使用了18种不同的提示,这些提示以直陈式、你式(tutoiement)和您式(vouvoiement)的形式提出。数据集分为训练集(103,482个样本)、验证集(27,000个样本)和测试集(24,822个样本)。
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

stsb_multi_mt_fr_prompt_sentence_similarity 是一个包含 155,304 行的数据集,用于语义相似性评分任务。该数据集是 Dataset of French Prompts (DFP) 的一个子集,原始数据来自 stsb_multi_mt 数据集的法国部分。

语言和许可证

  • 语言: 法语 (fr)
  • 许可证: 其他

数据集大小和任务类别

  • 大小类别: 100k<n<1M
  • 任务类别: 文本分类
  • 任务ID: 文本评分, 语义相似性评分

标签

  • 标签: DFP, 法语提示

数据集创建者

  • 注释创建者: 发现
  • 语言创建者: 发现

多语言性

  • 多语言性: 单语

源数据集

  • 源数据集: stsb_multi_mt

数据集分割

  • 训练集: 103,482 样本
  • 验证集: 27,000 样本
  • 测试集: 24,822 样本

如何使用

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/stsb_multi_mt_fr_prompt_sentence_similarity")

引用信息

原始数据

@InProceedings{huggingface:dataset:stsb_multi_mt,
title = {Machine translated multilingual STS benchmark dataset.},
author={Philip May},
year={2021},
url={https://github.com/PhilipMay/stsb-multi-mt}
}

本数据集

@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

许可证链接

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作