Magpie-Align/Magpie-Phi3-Pro-300K-Filtered

Name: Magpie-Align/Magpie-Phi3-Pro-300K-Filtered
Creator: Magpie-Align
Published: 2024-07-03 04:40:59
License: 暂无描述

Hugging Face2024-07-03 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/Magpie-Align/Magpie-Phi3-Pro-300K-Filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Magpie方法从microsoft/Phi-3-medium-128k-instruct模型中生成的，包含了300K高质量对话数据。数据集的特征包括输入长度、输出长度、任务类别、输入质量、输入难度、最小邻居距离、安全性、奖励和语言等。过滤设置包括输入质量、指令奖励、去除重复和不完整指令，并选择响应最长的300K数据。数据集主要用于监督微调（SFT），并且在某些任务中表现优于其他公开数据集。

提供机构：

Magpie-Align

原始信息汇总

数据集概述

数据集信息

特征列表:
- uuid: 字符串类型
- model: 字符串类型
- gen_input_configs: 结构体类型，包含以下字段：
  - temperature: 浮点数类型
  - top_p: 浮点数类型
  - input_generator: 字符串类型
  - seed: 空类型
  - extract_input: 字符串类型
- instruction: 字符串类型
- response: 字符串类型
- conversations: 列表类型，包含以下字段：
  - from: 字符串类型
  - value: 字符串类型
- task_category: 字符串类型
- other_task_category: 序列字符串类型
- task_category_generator: 字符串类型
- difficulty: 字符串类型
- intent: 字符串类型
- knowledge: 字符串类型
- difficulty_generator: 字符串类型
- input_quality: 字符串类型
- quality_explanation: 字符串类型
- quality_generator: 字符串类型
- llama_guard_2: 字符串类型
- reward_model: 字符串类型
- instruct_reward: 浮点数类型
- min_neighbor_distance: 浮点数类型
- repeat_count: 整数类型
- min_similar_uuid: 字符串类型
- instruction_length: 整数类型
- response_length: 整数类型
- language: 字符串类型
数据分割:
- train: 包含300,000个样本，总大小为1,574,922,147.473432字节
数据集大小:
- 下载大小: 886,548,523字节
- 数据集大小: 1,574,922,147.473432字节

配置信息

默认配置:
- 数据文件路径: data/train-*

可用标签

输入长度: 指令中的字符总数
输出长度: 响应中的字符总数
任务类别: 指令的具体类别
输入质量: 指令的清晰度、特异性和连贯性，评级为非常差、差、一般、好和优秀
输入难度: 完成指令所需知识的水平，评级为非常容易、容易、中等、难或非常难
最小邻居距离: 数据集中最近的邻居的嵌入距离，用于过滤重复或相似的实例
安全性: 由meta-llama/Meta-Llama-Guard-2-8B标记的安全标签
奖励: 奖励模型给出的特定指令-响应对的输出
语言: 指令的语言

过滤设置

输入质量: ≥ 好
指令奖励: ≥ -10
移除重复和不完整的指令（例如，以":"结尾）
选择300K具有最长响应的数据

5,000+

优质数据集

54 个

任务类型

进入经典数据集