five

Magpie-Llama-3.1-Pro-300K-Filtered

收藏
Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Magpie-Align/Magpie-Llama-3.1-Pro-300K-Filtered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,每个字段都有其特定的数据类型和结构。主要字段包括uuid、model、gen_input_configs(包含多个子字段如temperature、top_p等)、instruction、response、conversations(包含from和value)、task_category、other_task_category、task_category_generator、difficulty、intent、knowledge、difficulty_generator、input_quality、quality_explanation、quality_generator、llama_guard_2、reward_model、instruct_reward、min_neighbor_distance、repeat_count、min_similar_uuid、instruction_length、response_length和language。数据集分为训练集,包含300000个样本。
创建时间:
2024-07-26
原始信息汇总

数据集概述

数据集特征

  • uuid: 数据类型为字符串。
  • model: 数据类型为字符串。
  • gen_input_configs: 结构化数据,包含以下字段:
    • temperature: 数据类型为浮点数。
    • top_p: 数据类型为浮点数。
    • input_generator: 数据类型为字符串。
    • seed: 数据类型为空。
    • pre_query_template: 数据类型为字符串。
  • instruction: 数据类型为字符串。
  • response: 数据类型为字符串。
  • conversations: 列表数据,包含以下字段:
    • from: 数据类型为字符串。
    • value: 数据类型为字符串。
  • task_category: 数据类型为字符串。
  • other_task_category: 序列数据,数据类型为字符串。
  • task_category_generator: 数据类型为字符串。
  • difficulty: 数据类型为字符串。
  • intent: 数据类型为字符串。
  • knowledge: 数据类型为字符串。
  • difficulty_generator: 数据类型为字符串。
  • input_quality: 数据类型为字符串。
  • quality_explanation: 数据类型为字符串。
  • quality_generator: 数据类型为字符串。
  • llama_guard_2: 数据类型为字符串。
  • reward_model: 数据类型为字符串。
  • instruct_reward: 数据类型为浮点数。
  • min_neighbor_distance: 数据类型为浮点数。
  • repeat_count: 数据类型为整数。
  • min_similar_uuid: 数据类型为字符串。
  • instruction_length: 数据类型为整数。
  • response_length: 数据类型为整数。
  • language: 数据类型为字符串。

数据集拆分

  • train: 包含300,000个样本,总字节数为1,656,792,825.9963841。

数据集大小

  • 下载大小: 1,009,928,826字节。
  • 数据集大小: 1,656,792,825.9963841字节。

配置

  • default: 包含训练数据文件,路径为data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
Magpie-Llama-3.1-Pro-300K-Filtered数据集的构建基于Llama 3.1 70B Instruct模型,采用Magpie自合成方法生成大规模对齐数据。通过输入仅包含用户消息位置左侧模板的方式,利用Llama-3-Instruct的自回归特性生成用户查询及其响应。经过全面分析,从生成的400万条指令中筛选出30万条高质量实例,确保数据的多样性和质量。
特点
该数据集包含丰富的特征,如输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性标签、奖励模型输出以及语言信息。特别地,输入质量和难度分别以清晰度、特异性、连贯性和知识需求为评估标准,最小邻居距离则用于过滤重复或相似实例。这些特征为研究者提供了多维度的分析视角。
使用方法
Magpie-Llama-3.1-Pro-300K-Filtered数据集适用于监督微调(SFT)任务,尤其适合用于对齐大型语言模型。研究者可通过加载数据集并提取指令-响应对,结合Llama-3-8B-Base模型进行微调,以评估模型在文本生成任务中的表现。此外,数据集中的多维度标签可用于进一步优化模型性能,例如通过过滤低质量或重复数据提升训练效果。
背景与挑战
背景概述
Magpie-Llama-3.1-Pro-300K-Filtered数据集由Llama 3.1 70B Instruct模型生成,旨在解决大规模语言模型(LLMs)对齐数据的高质量需求。该数据集由Magpie项目团队开发,其核心研究问题在于如何通过自合成方法从已对齐的LLMs中提取高质量的指令数据,以克服现有开源数据创建方法在扩展性和多样性上的局限。通过输入仅包含左侧模板的提示,Llama-3-Instruct模型能够生成用户查询及其响应,从而生成大规模对齐数据。该数据集的研究成果已在2024年6月发布,并在AlpacaEval、ArenaHard和WildBench等对齐基准测试中展示了其优越性,推动了AI对齐领域的民主化进程。
当前挑战
Magpie-Llama-3.1-Pro-300K-Filtered数据集在构建过程中面临多重挑战。首先,尽管Llama-3-Instruct模型能够生成大量指令数据,但如何从中筛选出高质量、多样化的实例仍是一个难题。其次,数据集中包含大量链式思维响应,可能导致模型性能下降,因此需要通过过滤机制减少此类数据。此外,确保指令的清晰性、特异性以及避免重复或相似实例也是构建过程中的关键挑战。最后,尽管该数据集在部分任务中表现优异,但其在更广泛任务中的泛化能力仍需进一步验证,以证明其在实际应用中的广泛适用性。
常用场景
经典使用场景
Magpie-Llama-3.1-Pro-300K-Filtered数据集在自然语言处理领域中被广泛用于大语言模型(LLMs)的监督微调(SFT)。通过该数据集,研究人员能够生成高质量的指令数据,用于训练和优化语言模型,使其在生成任务中表现出更高的准确性和多样性。该数据集特别适用于需要大规模、高质量对齐数据的场景,如对话生成、文本摘要和问答系统。
衍生相关工作
基于Magpie-Llama-3.1-Pro-300K-Filtered数据集,研究人员开发了多种衍生工作,如多轮对话数据集Magpie-Llama-3.1-Pro-MT-300K-Filtered和直接偏好优化(DPO)数据集Magpie-Llama-3.1-Pro-DPO-100K。这些衍生数据集进一步扩展了原始数据集的应用范围,推动了对话生成、偏好优化等领域的研究进展。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)对齐领域,Magpie-Llama-3.1-Pro-300K-Filtered数据集的最新研究方向聚焦于通过自合成方法生成高质量的对齐数据。这一方法利用Llama-3-Instruct等对齐模型的自动回归特性,仅通过输入左侧模板即可生成用户查询,从而大规模生成指令数据。通过对生成数据的全面分析,筛选出300K高质量实例,用于模型微调。研究表明,使用Magpie数据进行监督微调(SFT)的模型在某些任务中表现与官方Llama-3-8B-Instruct相当,甚至超越了一些结合SFT和偏好优化的公共数据集。这一发现为LLMs对齐数据的开源化提供了新的可能性,推动了AI民主化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作