HachiML/Evol-hh-rlhf-gen3-1k
收藏Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HachiML/Evol-hh-rlhf-gen3-1k
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: No.
dtype: int64
- name: seed_id
dtype: int64
- name: generation
dtype: int64
- name: evol_history
sequence: string
- name: instruction
dtype: string
- name: output
dtype: string
splits:
- name: train
num_bytes: 2340124
num_examples: 1017
download_size: 1098508
dataset_size: 2340124
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: mit
task_categories:
- text-generation
language:
- ja
tags:
- synthetic
- evol-instruct
size_categories:
- 1K<n<10K
---
# Evol-hh-rlhf-gen3-1k
<!-- Provide a quick summary of the dataset. -->
Evol-hh-rlhf-gen3-1kは、
- [kunishou/hh-rlhf-49k-ja](https://huggingface.co/datasets/kunishou/hh-rlhf-49k-ja)をseed tasksとして
- [Evol-Instruction](https://arxiv.org/abs/2304.12244)の手法
- [mistralai/Mixtral-8x22B-Instruct-v0.1](https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1)
で作った合成データ(Synthetic data)です。
モデルの利用には[Deepinfra](https://deepinfra.com/mistralai/Mixtral-8x22B-Instruct-v0.1/api?example=openai-python)を利用しています。
<!-- This dataset card aims to be a base template for new datasets. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/datasetcard_template.md?plain=1). -->
## Dataset Details
### Dataset Description
<!-- Provide a longer summary of what this dataset is. -->
- **Curated by:** [HachiML](https://huggingface.co/HachiML)
- **Language(s) (NLP):** Japanese
- **License:** Apache 2.0
- **Github:** [Evol-Instruct-jp](https://github.com/Hajime-Y/Evol-Instruct-jp)
## Uses
<!-- Address questions around how the dataset is intended to be used. -->
```Python
# library
from datasets import load_dataset
# Load dataset.
dataset = load_dataset("HachiML/Evol-hh-rlhf-gen3-1k")
```
## Code
**Github:** [Evol-Instruct-jp](https://github.com/Hajime-Y/Evol-Instruct-jp)
にコードを置いています。このコードを元に、以下の設定で生成しました。
```Python
!python main.py \
--input_file "./data/hh-rlhf-49k-ja.jsonl" \
--output_file "./output/generated.json" \
--eliminated_file "./output/eliminated.json" \
--model "mistralai/Mixtral-8x22B-Instruct-v0.1" \
--num_instructions_to_generate 1000 \
--subset_size 100
```
1k recordsの生成はsubset37 で目標数に達しました。続きから生成を開始する際は start_subset_index=38 の設定が必要です。
提供机构:
HachiML
原始信息汇总
数据集概述
数据集名称
- 名称: Evol-hh-rlhf-gen3-1k
数据集特征
- 特征列表:
- No. (int64)
- seed_id (int64)
- generation (int64)
- evol_history (sequence: string)
- instruction (string)
- output (string)
数据集拆分
- 拆分详情:
- train:
- 示例数量: 1017
- 数据大小: 2340124字节
- train:
数据集大小
- 下载大小: 1098508字节
- 数据集大小: 2340124字节
配置信息
- 默认配置:
- 数据文件路径: data/train-*
许可证
- 许可证: MIT
任务类别
- 任务类别: text-generation
语言
- 语言: Japanese
标签
- 标签:
- synthetic
- evol-instruct
大小类别
- 大小类别: 1K<n<10K



