mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled

Name: mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled
Creator: Cognitive Computations
Published: 2025-01-05 22:58:05
License: 暂无描述

Hugging Face2025-01-05 更新2025-01-06 收录

下载链接：

https://huggingface.co/datasets/cognitivecomputations/mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是orca-agentinstruct-1M-v1-cleaned数据集的过滤版本，由Eric Hartford和Cognitive Computations提供。原始数据集是由Microsoft发布的orca-agentinstruct-1M-v1的清理版本，是一个完全合成的数据集，仅使用网络上公开的原始文本作为种子数据。该数据集是创建Orca-3-Mistral的完整AgentInstruct数据集（约25M样本）的子集。作者声称，与Mistral 7B Instruct相比，该数据集在AGIEval上提高了40%，在MMLU上提高了19%，在GSM8K上提高了54%，在BBH上提高了38%，在AlpacaEval上提高了45%。对该数据集的修改包括删除具有相同最终响应的行，并添加一个包含多个布尔值的'flags'列，用于标记输出是否为拒绝、是否包含未经请求的建议、是否包含NSFW内容、是否包含PII以及是否给出免责声明。此外，还对原始数据集进行了统一分割、将字符串转换为字典列表以及删除空的系统提示等更改。

提供机构：

Cognitive Computations

创建时间：

2025-01-05

原始信息汇总

数据集概述

基本信息

数据集名称: orca-agentinstruct-1M-v1-cleaned DolphinLabeled
语言: 英文 (en)
许可证: CDLA-Permissive-2.0
数据规模: 1M < n < 10M
任务类别: 问答 (question-answering)

数据集来源

原始数据集: mlabonne/orca-agentinstruct-1M-v1-cleaned
原始数据集来源: microsoft/orca-agentinstruct-1M-v1

数据集修改

修改目的: 对原始数据集进行过滤和标注
修改内容:
1. 去重: 使用 dedupe.py 脚本移除具有相同最终响应的行。
2. 标注: 使用 label.py 脚本添加了一个 "flags" 列，包含以下布尔值：
  - refusal: 输出是否为拒绝
  - unsolicited: 输出是否包含未经请求的建议
  - nsfw: 指令或输出是否包含不适合工作场所的内容
  - pii: 指令或输出是否包含个人身份信息
  - disclaimer: 输出是否包含免责声明
标注工具: Deepseek-V3
标注结果: 少于 1% 的行被系统拒绝回答并被移除

数据集结构

配置: 默认配置 (default)
数据文件:
- 训练集: data/train*

原始数据集描述

原始数据集名称: Orca-AgentInstruct-1M-v1-cleaned
原始数据集描述: 这是由 Microsoft 发布的 microsoft/orca-agentinstruct-1M-v1 数据集的清理版本。
改进内容:
1. 将所有分割统一为一个，并添加了新的 "split" 列
2. 将字符串转换为字典列表，以确保与大多数框架的兼容性
3. 移除了空的系统提示，以避免出现奇怪的错误

数据集用途

主要用途: 用于问答任务的模型训练和评估
性能提升: 与 Mistral 7B Instruct 相比，作者声称在多个基准测试上有显著提升：
- AGIEval: 40% 提升
- MMLU: 19% 提升
- GSM8K: 54% 提升
- BBH: 38% 提升
- AlpacaEval: 45% 提升

搜集汇总

数据集介绍

构建方式

该数据集基于微软发布的orca-agentinstruct-1M-v1数据集，经过深度清理和标注处理。原始数据集为全合成数据集，使用公开网络文本作为种子数据生成。在此基础上，通过两个脚本进行进一步优化：dedupe.py用于去除重复的最终响应行，label.py则添加了一个包含多个布尔值的“flags”列，用于标记诸如拒绝、未经请求的建议、NSFW内容、个人身份信息（PII）以及免责声明等特征。此外，数据集还通过Deepseek-V3系统进行标签生成，并删除了少量被系统拒绝回答的行。

使用方法

该数据集适用于问答系统、自然语言处理模型训练等任务。使用者可以通过“flags”列中的布尔值进行数据筛选，例如过滤掉包含NSFW内容或PII的数据，从而确保模型训练的安全性和合规性。数据集的分割和格式转换使其能够直接应用于大多数机器学习框架，无需额外的预处理步骤。此外，研究者和开发者可以利用该数据集进行模型性能评估，尤其是在处理复杂指令和生成高质量响应方面的能力。

背景与挑战

背景概述

mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled数据集是由Eric Hartford和Cognitive Computations团队基于微软的orca-agentinstruct-1M-v1数据集进行改进和标注的版本。该数据集的主要目的是通过过滤和标注，提升问答任务中模型的表现。原始数据集由微软发布，是一个完全基于网络公开文本生成的合成数据集，旨在通过大规模数据训练提升模型在多个基准测试中的性能，如AGIEval、MMLU、GSM8K等。改进后的版本通过去重和标注，进一步优化了数据的质量和可用性，为问答系统的研究提供了更高质量的训练资源。

当前挑战

该数据集在构建过程中面临的主要挑战包括数据去重和标注的准确性。首先，原始数据集中存在大量重复的响应，需要通过脚本进行去重处理，以确保数据的多样性和有效性。其次，标注过程中需要准确识别和标记拒绝响应、未经请求的建议、NSFW内容、个人身份信息（PII）以及免责声明等复杂情况。尽管使用了先进的Deepseek-V3系统进行标注，但仍存在少量数据被系统拒绝处理的情况，这可能导致部分数据的丢失。此外，数据格式的统一和兼容性调整也是构建过程中的一大挑战，以确保数据集能够广泛应用于不同的框架和模型训练中。

常用场景

经典使用场景

在自然语言处理领域，mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled数据集广泛应用于问答系统的训练与评估。其经典使用场景包括通过大规模合成数据训练智能代理，以提升其在复杂任务中的表现。该数据集通过过滤和标注，确保了数据的多样性和质量，为模型提供了丰富的训练样本。

解决学术问题

该数据集解决了问答系统中常见的学术研究问题，如模型在复杂任务中的泛化能力和多轮对话的连贯性。通过引入标注信息，如拒绝回答、未经请求的建议等，研究者能够更精确地分析模型的行为模式，从而优化其性能。此外，数据集的清洗和去重操作减少了噪声数据对模型训练的干扰，提升了模型的鲁棒性。

实际应用

在实际应用中，mlabonne_orca-agentinstruct-1M-v1-cleaned-DolphinLabeled数据集被用于开发智能客服、虚拟助手等问答系统。其标注信息帮助开发者识别和处理敏感内容，如个人隐私信息和不适当内容，从而确保系统的安全性和合规性。此外，该数据集还为多语言和多领域的问答系统提供了基础支持。

数据集最近研究