Magpie-Align/Magpie-Qwen2-Pro-1M-v0.1
收藏Hugging Face2024-07-03 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/Magpie-Align/Magpie-Qwen2-Pro-1M-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Magpie方法使用Qwen/Qwen2-72B-Instruct模型生成的,包含了指令和响应的对话数据。数据集的特征包括UUID、模型名称、生成输入配置、指令、响应、对话、任务类别、难度、意图、知识、输入质量、质量解释、奖励模型输出等。数据集的不同版本包括1M原始对话、300K高质量对话、200K高质量中文对话和200K高质量英文对话。
This dataset is generated by the Qwen/Qwen2-72B-Instruct model using the Magpie method, containing instruction and response dialogue data. The dataset features include UUID, model name, generation input configurations, instructions, responses, conversations, task categories, difficulty, intent, knowledge, input quality, quality explanations, reward model outputs, etc. Different versions of the dataset include 1M raw conversations, 300K high-quality conversations, 200K high-quality Chinese conversations, and 200K high-quality English conversations.
提供机构:
Magpie-Align
原始信息汇总
数据集概述
数据集信息
特征
- uuid: 数据类型为字符串。
- model: 数据类型为字符串。
- gen_input_configs: 结构化数据,包含以下字段:
- temperature: 数据类型为浮点数(float64)。
- top_p: 数据类型为浮点数(float64)。
- input_generator: 数据类型为字符串。
- seed: 数据类型为空(null)。
- extract_input: 数据类型为字符串。
- instruction: 数据类型为字符串。
- response: 数据类型为字符串。
- conversations: 列表数据,包含以下字段:
- from: 数据类型为字符串。
- value: 数据类型为字符串。
- task_category: 数据类型为字符串。
- other_task_category: 序列数据,数据类型为字符串。
- task_category_generator: 数据类型为字符串。
- difficulty: 数据类型为字符串。
- intent: 数据类型为字符串。
- knowledge: 数据类型为字符串。
- difficulty_generator: 数据类型为字符串。
- input_quality: 数据类型为字符串。
- quality_explanation: 数据类型为字符串。
- quality_generator: 数据类型为字符串。
- llama_guard_2: 数据类型为字符串。
- reward_model: 数据类型为字符串。
- instruct_reward: 数据类型为浮点数(float64)。
- min_neighbor_distance: 数据类型为浮点数(float64)。
- repeat_count: 数据类型为整数(int64)。
- min_similar_uuid: 数据类型为字符串。
- instruction_length: 数据类型为整数(int64)。
- response_length: 数据类型为整数(int64)。
- language: 数据类型为字符串。
数据分割
- train: 包含1,000,000个样本,总字节数为4,271,822,124。
数据集大小
- 下载大小: 2,145,751,266字节。
- 数据集大小: 4,271,822,124字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。



