muellerzr/llama-3-8b-self-align-data-generation-results
收藏Hugging Face2024-05-08 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/muellerzr/llama-3-8b-self-align-data-generation-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Llama 3 8B自我对齐管道中数据生成和整理的各个阶段。每个阶段对应一个分支,包括从代码片段到概念的生成、从概念到指令的生成、从指令到响应的生成(包含自我验证代码)、执行过滤以及数据清理和选择。数据生成过程遵循了原始仓库中的指导,但使用了vLLM直接进行生成,无需托管服务器。
该数据集包含了Llama 3 8B自我对齐管道中数据生成和整理的各个阶段。每个阶段对应一个分支,包括从代码片段到概念的生成、从概念到指令的生成、从指令到响应的生成(包含自我验证代码)、执行过滤以及数据清理和选择。数据生成过程遵循了原始仓库中的指导,但使用了vLLM直接进行生成,无需托管服务器。
提供机构:
muellerzr
原始信息汇总
Llama 3 8B Self-Alignment Data Generation
数据集结构
每个修订(分支)包含数据生成管道的不同阶段:
- Snippet to concepts generation:
snippet-to-concept - Concepts to instruction generation:
concept-to-instruction - Instruction to response (with self-validation code) generation:
instruction-to-response - Execution filter:
execution-filter - Data sanitization and selection:
sanitization-and-selection和main
数据生成方法
每个步骤遵循原始仓库的指导,除了使用 dev 分支以直接使用 vLLM,无需托管服务器。调用 self_ossinstruct.py 时传递 --use_vllm_server False 并增加 --num_batched_requests 到 200。



