CATIE-AQ/stsb_multi_mt_fr_prompt_sentence_similarity
收藏数据集概述
stsb_multi_mt_fr_prompt_sentence_similarity 是一个包含 155,304 行的数据集,用于语义相似性评分任务。该数据集是 Dataset of French Prompts (DFP) 的一个子集,原始数据来自 stsb_multi_mt 数据集的法国部分。
语言和许可证
- 语言: 法语 (fr)
- 许可证: 其他
数据集大小和任务类别
- 大小类别: 100k<n<1M
- 任务类别: 文本分类
- 任务ID: 文本评分, 语义相似性评分
标签
- 标签: DFP, 法语提示
数据集创建者
- 注释创建者: 发现
- 语言创建者: 发现
多语言性
- 多语言性: 单语
源数据集
- 源数据集: stsb_multi_mt
数据集分割
- 训练集: 103,482 样本
- 验证集: 27,000 样本
- 测试集: 24,822 样本
如何使用
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/stsb_multi_mt_fr_prompt_sentence_similarity")
引用信息
原始数据
@InProceedings{huggingface:dataset:stsb_multi_mt,
title = {Machine translated multilingual STS benchmark dataset.},
author={Philip May},
year={2021},
url={https://github.com/PhilipMay/stsb-multi-mt}
}
本数据集
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



