five

Magpie-Pro-300K-Filtered 高质量对齐数据集

收藏
超神经2024-07-07 更新2024-07-06 收录
下载链接:
https://hyper.ai/cn/datasets/32714
下载链接
链接失效反馈
官方服务:
资源简介:
Magpie-Pro-300K-Filtered 数据集是使用 Magpie 方法合成的高质量指令数据集,它是从 Llama-3 70B 中提取的。这个数据集包含约 300k 条高质量的对话,是通过一个自动化的自合成过程生成的,该过程利用了对齐的 LLMs 的自回归特性来生成用户查询和相应的回复。

The Magpie-Pro-300K-Filtered dataset is a high-quality instruction dataset synthesized using the Magpie method, extracted from Llama-3 70B. This dataset contains approximately 300,000 high-quality dialogue samples, which were generated through an automated self-synthesis pipeline that leverages the autoregressive properties of aligned large language models (LLMs) to produce user queries and their corresponding responses.
创建时间:
2024-07-03
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Magpie-Pro-300K-Filtered是一个基于Magpie方法从Llama-3 70B合成的高质量对齐数据集,包含约30万条对话,通过自动自合成过程利用对齐大语言模型的自回归特性生成。该数据集为过滤后版本,建议避免与类似数据集同时用于模型微调。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务