five

HachiML/Evol-hh-rlhf-gen3-1k

收藏
Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HachiML/Evol-hh-rlhf-gen3-1k
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: No. dtype: int64 - name: seed_id dtype: int64 - name: generation dtype: int64 - name: evol_history sequence: string - name: instruction dtype: string - name: output dtype: string splits: - name: train num_bytes: 2340124 num_examples: 1017 download_size: 1098508 dataset_size: 2340124 configs: - config_name: default data_files: - split: train path: data/train-* license: mit task_categories: - text-generation language: - ja tags: - synthetic - evol-instruct size_categories: - 1K<n<10K --- # Evol-hh-rlhf-gen3-1k <!-- Provide a quick summary of the dataset. --> Evol-hh-rlhf-gen3-1kは、 - [kunishou/hh-rlhf-49k-ja](https://huggingface.co/datasets/kunishou/hh-rlhf-49k-ja)をseed tasksとして - [Evol-Instruction](https://arxiv.org/abs/2304.12244)の手法 - [mistralai/Mixtral-8x22B-Instruct-v0.1](https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1) で作った合成データ(Synthetic data)です。 モデルの利用には[Deepinfra](https://deepinfra.com/mistralai/Mixtral-8x22B-Instruct-v0.1/api?example=openai-python)を利用しています。 <!-- This dataset card aims to be a base template for new datasets. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/datasetcard_template.md?plain=1). --> ## Dataset Details ### Dataset Description <!-- Provide a longer summary of what this dataset is. --> - **Curated by:** [HachiML](https://huggingface.co/HachiML) - **Language(s) (NLP):** Japanese - **License:** Apache 2.0 - **Github:** [Evol-Instruct-jp](https://github.com/Hajime-Y/Evol-Instruct-jp) ## Uses <!-- Address questions around how the dataset is intended to be used. --> ```Python # library from datasets import load_dataset # Load dataset. dataset = load_dataset("HachiML/Evol-hh-rlhf-gen3-1k") ``` ## Code **Github:** [Evol-Instruct-jp](https://github.com/Hajime-Y/Evol-Instruct-jp) にコードを置いています。このコードを元に、以下の設定で生成しました。 ```Python !python main.py \ --input_file "./data/hh-rlhf-49k-ja.jsonl" \ --output_file "./output/generated.json" \ --eliminated_file "./output/eliminated.json" \ --model "mistralai/Mixtral-8x22B-Instruct-v0.1" \ --num_instructions_to_generate 1000 \ --subset_size 100 ``` 1k recordsの生成はsubset37 で目標数に達しました。続きから生成を開始する際は start_subset_index=38 の設定が必要です。
提供机构:
HachiML
原始信息汇总

数据集概述

数据集名称

  • 名称: Evol-hh-rlhf-gen3-1k

数据集特征

  • 特征列表:
    • No. (int64)
    • seed_id (int64)
    • generation (int64)
    • evol_history (sequence: string)
    • instruction (string)
    • output (string)

数据集拆分

  • 拆分详情:
    • train:
      • 示例数量: 1017
      • 数据大小: 2340124字节

数据集大小

  • 下载大小: 1098508字节
  • 数据集大小: 2340124字节

配置信息

  • 默认配置:
    • 数据文件路径: data/train-*

许可证

  • 许可证: MIT

任务类别

  • 任务类别: text-generation

语言

  • 语言: Japanese

标签

  • 标签:
    • synthetic
    • evol-instruct

大小类别

  • 大小类别: 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作