arcee-ai/BAAI-Infinity-Instruct-System
收藏Hugging Face2024-06-24 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/arcee-ai/BAAI-Infinity-Instruct-System
下载链接
链接失效反馈官方服务:
资源简介:
Infinity Instruct数据集是一个大规模、高质量的指令数据集,旨在提升模型在复杂下游任务中的表现。数据集包含基础数据集和聊天数据集,分别用于提升模型在代码、数学等任务中的表现和增强模型在真实对话场景中的指令遵循能力。数据集的构建过程包括指令选择、指令演化、模型能力缺陷诊断等策略。数据集来源于多个开源社区,包括OpenHermes-2.5、UltraInteract_sft、CodeBagel等。数据集版本包括InfInstruct-3M、InfInstruct-0608、InfInstruct-0612、InfInstruct-0613等。
The Infinity Instruct dataset is a large-scale, high-quality instruction dataset designed to enhance model performance on challenging downstream tasks. The dataset includes foundational and chat datasets, aimed at improving model performance in tasks such as code and math, and enhancing instruction-following ability in real conversation scenarios. The dataset construction process involves strategies such as instruction selection, instruction evolution, and model ability deficiency diagnosis. The dataset is sourced from various open-source communities, including OpenHermes-2.5, UltraInteract_sft, CodeBagel, etc. Dataset versions include InfInstruct-3M, InfInstruct-0608, InfInstruct-0612, InfInstruct-0613, etc.
提供机构:
arcee-ai
原始信息汇总
Infinity Instruct 数据集概述
数据集基本信息
- 任务类别: 文本生成
- 语言: 英语、中文
- 数据规模: 1M<n<10M
数据集修改
- 原始数据集包含383,697个样本,使用"gpt"标签代替"system"标签。
- 56个样本中存在空值,已进行标签重命名和空值样本移除。
数据集介绍
- 目标: 构建大规模、高质量的指令数据集。
- 数据构建策略: 使用开源数据作为种子,通过指令选择和指令进化两种策略迭代数据集。
数据集版本
- 基础数据集: InfInstruct-3M
- 聊天数据集: InfInstruct-0608, InfInstruct-0612, InfInstruct-0613
数据来源
- 从开源社区收集大量指令数据,包括多个数据集如OpenHermes-2.5、UltraInteract_sft等。
数据集详细信息
- 原始数据集: 包含多个子数据集,总数为3,463,473行。
- 主观指令数据集: 包含多个子数据集,总数为1,362,000行。
指令选择与生成
- 指令选择: 使用Flan和OpenHermes等数据集,增强代码和数学能力。
- 指令生成: 通过数据进化策略和模型能力缺陷诊断生成高质量指令。
免责声明
- 本项目资源仅限学术研究使用,不得用于商业用途。
- 模型输出受随机性影响,不保证输出内容的准确性。



