five

tasksource/oasst2_pairwise_rlhf_reward

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tasksource/oasst2_pairwise_rlhf_reward
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: lang dtype: string - name: parent_id dtype: string - name: prompt dtype: string - name: chosen dtype: string - name: rejected dtype: string - name: rank sequence: float64 splits: - name: train num_bytes: 68638275 num_examples: 26971 - name: validation num_bytes: 3355134 num_examples: 1408 download_size: 0 dataset_size: 71993409 --- # Dataset Card for "oasst2_pairwise_rlhf_reward" ```python import pandas as pd from datasets import load_dataset,concatenate_datasets, Dataset, DatasetDict import numpy as np dataset = load_dataset("OpenAssistant/oasst2") df=concatenate_datasets(list(dataset.values())).to_pandas() m2t=df.set_index("message_id")['text'].to_dict() m2r=df.set_index("message_id")['role'].to_dict() m2p=df.set_index('message_id')['parent_id'].to_dict() m2history=dict() # message id to unrolled history for k,v in m2p.items(): history=[k] while history[-1] in m2p: history+=[m2p[history[-1]]] m2history[k]="\n".join([f"{m2r[m]}: {m2t[m]}" for m in history[::-1] if m]) d=dict() for split in "train","validation": df=dataset[split].to_pandas() df['prompt']=df.parent_id.map(lambda x: m2history.get(x,'')) df=df[~df['rank'].isna()] def agg(x): x=list(x) return [x[0],x[-1]] df=df.groupby(['prompt',"parent_id",'lang'])[['text','rank']].agg(agg).reset_index() df=df[df['rank'].map(lambda x:len(set(x))>1)] df['chosen'] = df.apply(lambda x:x['text'][np.argmin(x['rank'])],axis=1) df['rejected'] = df.apply(lambda x:x['text'][np.argmax(x['rank'])],axis=1) d[split]=Dataset.from_pandas(df[['lang','parent_id','prompt','chosen','rejected']],preserve_index=False) DatasetDict(d).push_to_hub('tasksource/oasst2_pairwise_rlhf_reward') ```
提供机构:
tasksource
原始信息汇总

数据集概述

数据集名称

  • 名称: oasst2_pairwise_rlhf_reward

数据集配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*

数据集特征

  • 特征列表:
    • lang: 数据类型为字符串
    • parent_id: 数据类型为字符串
    • prompt: 数据类型为字符串
    • chosen: 数据类型为字符串
    • rejected: 数据类型为字符串
    • rank: 数据类型为浮点数序列

数据集分割

  • 训练集:
    • 字节数: 68638275
    • 样本数: 26971
  • 验证集:
    • 字节数: 3355134
    • 样本数: 1408

数据集大小

  • 下载大小: 0
  • 数据集大小: 71993409
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作