HachiML/hh-rlhf-49k-ja-alpaca-format
收藏Hugging Face2023-08-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HachiML/hh-rlhf-49k-ja-alpaca-format
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input
dtype: string
- name: output
dtype: string
- name: index
dtype: string
splits:
- name: train
num_bytes: 41667442
num_examples: 49332
download_size: 19145442
dataset_size: 41667442
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: mit
language:
- ja
---
# Dataset Card for "hh-rlhf-49k-ja-alpaca-format"
これは[kunishou/hh-rlhf-49k-ja](https://huggingface.co/datasets/kunishou/hh-rlhf-49k-ja)に以下の変更を加えたデータセットです。
- alpaca形式に変更
- 翻訳が失敗したもの(つまりng_translation!="0.0"のもの)の削除
- indexの頭に"hh-rlhf."をつける
This is a dataset of [kunishou/hh-rlhf-49k-en](https://huggingface.co/datasets/kunishou/hh-rlhf-49k-ja) with the following changes
- Changed to alpaca format
- Removed failed translations (i.e., those with ng_translation!="0.0")
- Add "hh-rlhf." at the beginning of indexes
提供机构:
HachiML
原始信息汇总
数据集概述
数据集信息
- 特征:
input: 类型为stringoutput: 类型为stringindex: 类型为string
- 分割:
train: 字节数为 41667442,样本数为 49332
- 下载大小: 19145442 字节
- 数据集大小: 41667442 字节
- 配置:
default: 数据文件路径为data/train-*
- 许可证: MIT
- 语言: 日语 (ja)
数据集变更
- 转换为 alpaca 格式
- 删除翻译失败的样本(即
ng_translation!="0.0"的样本) - 在
index字段前添加 "hh-rlhf."



