five

muellerzr/llama-3-8b-self-align-data-generation-results

收藏
Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/muellerzr/llama-3-8b-self-align-data-generation-results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了Llama 3 8B自我对齐管道中数据生成和整理的各个阶段。每个阶段对应一个分支,包括从代码片段到概念的生成、从概念到指令的生成、从指令到响应的生成(包含自我验证代码)、执行过滤以及数据清理和选择。数据生成过程遵循了原始仓库中的指导,但使用了vLLM直接进行生成,无需托管服务器。

该数据集包含了Llama 3 8B自我对齐管道中数据生成和整理的各个阶段。每个阶段对应一个分支,包括从代码片段到概念的生成、从概念到指令的生成、从指令到响应的生成(包含自我验证代码)、执行过滤以及数据清理和选择。数据生成过程遵循了原始仓库中的指导,但使用了vLLM直接进行生成,无需托管服务器。
提供机构:
muellerzr
原始信息汇总

Llama 3 8B Self-Alignment Data Generation

数据集结构

每个修订(分支)包含数据生成管道的不同阶段:

  • Snippet to concepts generation: snippet-to-concept
  • Concepts to instruction generation: concept-to-instruction
  • Instruction to response (with self-validation code) generation: instruction-to-response
  • Execution filter: execution-filter
  • Data sanitization and selection: sanitization-and-selectionmain

数据生成方法

每个步骤遵循原始仓库的指导,除了使用 dev 分支以直接使用 vLLM,无需托管服务器。调用 self_ossinstruct.py 时传递 --use_vllm_server False 并增加 --num_batched_requests 到 200。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作