catallama/Catalan-DPO

Name: catallama/Catalan-DPO
Creator: catallama
Published: 2024-05-26 13:45:11
License: 暂无描述

Hugging Face2024-05-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/catallama/Catalan-DPO

下载链接

链接失效反馈

官方服务：

资源简介：

Catalan DPO数据集包含13.9k个样本偏好，这些样本是通过llm-blender/PairRM模型生成的。数据集来源于catallama/Catalan-Instruct数据集的测试集，并使用catallama/CataLlama-v0.1-Instruct-SFT模型对每个指令生成了5个不同的样本答案。PairRM模型用于选择最差和最佳答案以创建DPO数据集。数据集的语言主要为加泰罗尼亚语（70%）和英语（30%），并且只包含一个训练集分割。

提供机构：

catallama

原始信息汇总

数据集概述

数据集名称

名称：Catalan DPO

数据集特征

包含三个主要特征：
- question: 数据类型为字符串
- chosen: 数据类型为字符串
- rejected: 数据类型为字符串

数据集大小

训练集大小：13936个样本
数据集总大小：34118101字节
下载大小：19340133字节

语言组成

主要语言：
- 加泰罗尼亚语 (ca-ES)：占比70%
- 英语 (en-US)：占比30%

数据集分割

数据集包含一个分割：train

任务类别

任务类别：文本生成

许可证

许可证：Apache-2.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集