five

0x7o/oasst2-ru-ppo

收藏
Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/0x7o/oasst2-ru-ppo
下载链接
链接失效反馈
官方服务:
资源简介:
oasst-ru-ppo数据集专为俄语语言模型设计,用于通过近端策略优化(PPO)优化语言模型。该数据集是从oasst2数据集的对话中创建的,每个对话包含一系列带有相关奖励的响应。每个响应的奖励是通过预定义的奖励字典计算的,奖励是每个标签的奖励值乘以该标签在消息中的值的总和。对话随后被转换为语言模型的提示,每个提示是用户和助手消息的序列,助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。

oasst-ru-ppo数据集专为俄语语言模型设计,用于通过近端策略优化(PPO)优化语言模型。该数据集是从oasst2数据集的对话中创建的,每个对话包含一系列带有相关奖励的响应。每个响应的奖励是通过预定义的奖励字典计算的,奖励是每个标签的奖励值乘以该标签在消息中的值的总和。对话随后被转换为语言模型的提示,每个提示是用户和助手消息的序列,助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。
提供机构:
0x7o
原始信息汇总

OASST-RU-PPO 数据集

描述

oasst-ru-ppo 数据集旨在使用近端策略优化(PPO)优化语言模型。它专门针对俄语语言模型,并从一系列带有相关奖励的对话中创建。

数据集创建

该数据集是从原始的 oasst2 数据集创建的,该数据集包含一系列对话。每个对话是一系列响应,其中每个响应是一个带有相应标签的文本消息。标签用于计算对话中每条消息的奖励。每条消息的奖励是根据每个标签的预定义奖励字典计算的。消息的奖励是每个标签的奖励乘以该标签在消息中的值的总和。然后,对话被转换为语言模型的提示。每个提示是一系列用户和助手消息,助手的消息是对话中的响应。提示中最后一个助手消息的奖励与该提示相关联。

使用

该数据集可用于使用 PPO 训练语言模型。提示可用作模型的输入,相关奖励可用作优化的目标。目标是训练模型生成最大化奖励的回复。

数据集信息

  • 特征:
    • text: 字符串类型
    • reward: 浮点数类型
  • 分割:
    • train: 15805437 字节, 5946 个样本
  • 下载大小: 7568450 字节
  • 数据集大小: 15805437 字节
  • 许可证: apache-2.0
  • 任务类别:
    • 文本生成
    • 对话
  • 语言: 俄语
  • 大小类别: 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作