0x7o/oasst2-ru-ppo

Name: 0x7o/oasst2-ru-ppo
Creator: 0x7o
Published: 2023-12-26 05:19:49
License: 暂无描述

Hugging Face2023-12-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/0x7o/oasst2-ru-ppo

下载链接

链接失效反馈

官方服务：

资源简介：

oasst-ru-ppo数据集专为俄语语言模型设计，用于通过近端策略优化（PPO）优化语言模型。该数据集是从oasst2数据集的对话中创建的，每个对话包含一系列带有相关奖励的响应。每个响应的奖励是通过预定义的奖励字典计算的，奖励是每个标签的奖励值乘以该标签在消息中的值的总和。对话随后被转换为语言模型的提示，每个提示是用户和助手消息的序列，助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。

提供机构：

0x7o

原始信息汇总

OASST-RU-PPO 数据集

描述

oasst-ru-ppo 数据集旨在使用近端策略优化（PPO）优化语言模型。它专门针对俄语语言模型，并从一系列带有相关奖励的对话中创建。

数据集创建

该数据集是从原始的 oasst2 数据集创建的，该数据集包含一系列对话。每个对话是一系列响应，其中每个响应是一个带有相应标签的文本消息。标签用于计算对话中每条消息的奖励。每条消息的奖励是根据每个标签的预定义奖励字典计算的。消息的奖励是每个标签的奖励乘以该标签在消息中的值的总和。然后，对话被转换为语言模型的提示。每个提示是一系列用户和助手消息，助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。

使用

该数据集可用于使用 PPO 训练语言模型。提示可用作模型的输入，相关奖励可用作优化的目标。目标是训练模型生成最大化奖励的回复。

数据集信息

特征:
- text: 字符串类型
- reward: 浮点数类型
分割:
- train: 15805437 字节, 5946 个样本
下载大小: 7568450 字节
数据集大小: 15805437 字节
许可证: apache-2.0
任务类别:
- 文本生成
- 对话
语言: 俄语
大小类别: 1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集