0x7o/oasst2-ru-ppo
收藏Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/0x7o/oasst2-ru-ppo
下载链接
链接失效反馈官方服务:
资源简介:
oasst-ru-ppo数据集专为俄语语言模型设计,用于通过近端策略优化(PPO)优化语言模型。该数据集是从oasst2数据集的对话中创建的,每个对话包含一系列带有相关奖励的响应。每个响应的奖励是通过预定义的奖励字典计算的,奖励是每个标签的奖励值乘以该标签在消息中的值的总和。对话随后被转换为语言模型的提示,每个提示是用户和助手消息的序列,助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。
oasst-ru-ppo数据集专为俄语语言模型设计,用于通过近端策略优化(PPO)优化语言模型。该数据集是从oasst2数据集的对话中创建的,每个对话包含一系列带有相关奖励的响应。每个响应的奖励是通过预定义的奖励字典计算的,奖励是每个标签的奖励值乘以该标签在消息中的值的总和。对话随后被转换为语言模型的提示,每个提示是用户和助手消息的序列,助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。
提供机构:
0x7o
原始信息汇总
OASST-RU-PPO 数据集
描述
oasst-ru-ppo 数据集旨在使用近端策略优化(PPO)优化语言模型。它专门针对俄语语言模型,并从一系列带有相关奖励的对话中创建。
数据集创建
该数据集是从原始的 oasst2 数据集创建的,该数据集包含一系列对话。每个对话是一系列响应,其中每个响应是一个带有相应标签的文本消息。标签用于计算对话中每条消息的奖励。每条消息的奖励是根据每个标签的预定义奖励字典计算的。消息的奖励是每个标签的奖励乘以该标签在消息中的值的总和。然后,对话被转换为语言模型的提示。每个提示是一系列用户和助手消息,助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。
使用
该数据集可用于使用 PPO 训练语言模型。提示可用作模型的输入,相关奖励可用作优化的目标。目标是训练模型生成最大化奖励的回复。
数据集信息
- 特征:
text: 字符串类型reward: 浮点数类型
- 分割:
train: 15805437 字节, 5946 个样本
- 下载大小: 7568450 字节
- 数据集大小: 15805437 字节
- 许可证: apache-2.0
- 任务类别:
- 文本生成
- 对话
- 语言: 俄语
- 大小类别: 1K<n<10K



