tasksource/oasst2_pairwise_rlhf_reward

Name: tasksource/oasst2_pairwise_rlhf_reward
Creator: tasksource
Published: 2024-01-09 08:54:00
License: 暂无描述

Hugging Face2024-01-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tasksource/oasst2_pairwise_rlhf_reward

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: lang dtype: string - name: parent_id dtype: string - name: prompt dtype: string - name: chosen dtype: string - name: rejected dtype: string - name: rank sequence: float64 splits: - name: train num_bytes: 68638275 num_examples: 26971 - name: validation num_bytes: 3355134 num_examples: 1408 download_size: 0 dataset_size: 71993409 --- # Dataset Card for "oasst2_pairwise_rlhf_reward" ```python import pandas as pd from datasets import load_dataset,concatenate_datasets, Dataset, DatasetDict import numpy as np dataset = load_dataset("OpenAssistant/oasst2") df=concatenate_datasets(list(dataset.values())).to_pandas() m2t=df.set_index("message_id")['text'].to_dict() m2r=df.set_index("message_id")['role'].to_dict() m2p=df.set_index('message_id')['parent_id'].to_dict() m2history=dict() # message id to unrolled history for k,v in m2p.items(): history=[k] while history[-1] in m2p: history+=[m2p[history[-1]]] m2history[k]="\n".join([f"{m2r[m]}: {m2t[m]}" for m in history[::-1] if m]) d=dict() for split in "train","validation": df=dataset[split].to_pandas() df['prompt']=df.parent_id.map(lambda x: m2history.get(x,'')) df=df[~df['rank'].isna()] def agg(x): x=list(x) return [x[0],x[-1]] df=df.groupby(['prompt',"parent_id",'lang'])[['text','rank']].agg(agg).reset_index() df=df[df['rank'].map(lambda x:len(set(x))>1)] df['chosen'] = df.apply(lambda x:x['text'][np.argmin(x['rank'])],axis=1) df['rejected'] = df.apply(lambda x:x['text'][np.argmax(x['rank'])],axis=1) d[split]=Dataset.from_pandas(df[['lang','parent_id','prompt','chosen','rejected']],preserve_index=False) DatasetDict(d).push_to_hub('tasksource/oasst2_pairwise_rlhf_reward') ```

提供机构：

tasksource

原始信息汇总

数据集概述

数据集名称

名称: oasst2_pairwise_rlhf_reward

数据集配置

默认配置:
- 训练集路径: data/train-*
- 验证集路径: data/validation-*

数据集特征

特征列表:
- lang: 数据类型为字符串
- parent_id: 数据类型为字符串
- prompt: 数据类型为字符串
- chosen: 数据类型为字符串
- rejected: 数据类型为字符串
- rank: 数据类型为浮点数序列

数据集分割

训练集:
- 字节数: 68638275
- 样本数: 26971
验证集:
- 字节数: 3355134
- 样本数: 1408

数据集大小

下载大小: 0
数据集大小: 71993409

5,000+

优质数据集

54 个

任务类型

进入经典数据集