Azure99/blossom-orca-v2

Name: Azure99/blossom-orca-v2
Creator: Azure99
Published: 2023-12-21 15:46:25
License: 暂无描述

Hugging Face2023-12-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Azure99/blossom-orca-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Blossom Orca V2是一个基于OpenOrca衍生而来的中英双语指令数据集，适用于指令微调。相比于blossom-wizard-v1，指令不变，进一步优化了输出效果，此外，将system消息并入user消息中。本数据集从OpenOrca中抽取了系统提示和指令，首先将其翻译为中文并校验翻译结果，再使用指令调用gpt-3.5-turbo-0613模型生成响应，并过滤掉包含自我认知以及拒绝回答的响应，以便后续对齐。此外，为了确保响应风格的一致性以及中英数据配比，本数据集还对未翻译的原始指令也进行了相同的调用，最终得到了1:1的中英双语指令数据。相比直接对原始OpenOrca进行翻译的中文数据集，Blossom Orca的一致性及质量更高。本次发布了全量数据的30%，包含中英双语各100K，共计200K记录。

Blossom Orca V2 is a Chinese-English bilingual instruction dataset derived from OpenOrca, intended for instruction fine-tuning. Compared to blossom-wizard-v1, it retains the original instructions while further optimizing output quality, and additionally integrates the system message into the user message. This dataset extracts system prompts and instructions from OpenOrca: first, it translates these contents into Chinese and verifies the translation results; then, it uses the gpt-3.5-turbo-0613 model via API calls to generate responses, and filters out responses containing self-awareness or refusal to answer to support subsequent alignment. Furthermore, to ensure consistent response styles and balance the Chinese-English data ratio, the same API calls are also applied to the untranslated original instructions, ultimately yielding a 1:1 Chinese-English bilingual instruction dataset. Compared to Chinese datasets created by directly translating the original OpenOrca, Blossom Orca features higher consistency and quality. This release includes 30% of the full dataset, with 100K entries each in Chinese and English, totaling 200K records.

提供机构：

Azure99

原始信息汇总

BLOSSOM ORCA V2 数据集概述

介绍

Blossom Orca V2 是一个基于 OpenOrca 衍生而来的中英双语指令数据集，适用于指令微调。数据集从 OpenOrca 中抽取系统提示和指令，首先将其翻译为中文并校验翻译结果，再使用 gpt-3.5-turbo-0613 模型生成响应，并过滤掉包含自我认知以及拒绝回答的响应。为了确保响应风格的一致性以及中英数据配比，本数据集还对未翻译的原始指令也进行了相同的调用，最终得到了 1:1 的中英双语指令数据。本次发布了全量数据的 30%，包含中英双语各 100K，共计 200K 记录。

语言

数据集以中文和英文为主。

数据集结构

数据集包含两个文件：blossom-orca-v1-chinese-100k.json 和 blossom-orca-v1-english-100k.json，分别对应中文和英文的数据。

每条数据代表一个完整的对话，包含以下字段：

id：字符串，代表原始 OpenOrca 的指令 id。
conversations：对象数组，每个对象包含 role 和 content 两个字段，role 的取值为 system、user 或 assistant，分别代表系统提示、用户输入和助手输出，content 则为对应的内容。

数据集限制

本数据集的所有响应均由 gpt-3.5-turbo-0613 生成，并未经过严格的数据校验，可能包含不准确甚至严重错误的回答。此外，由于过滤了拒答响应，仅使用本数据集训练的模型，可能不会拒绝非法的请求。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的双语指令数据集对于模型微调至关重要。Blossom Orca V2的构建始于对OpenOrca数据集的精心筛选，从中提取系统提示与指令内容。这些英文指令经过专业翻译转化为中文，并经过严格校验以确保语言准确性。随后，利用gpt-3.5-turbo-0613模型生成响应，同时系统性地过滤了涉及自我认知或拒绝回答的样本，以提升数据对齐效果。为维持中英文数据平衡与风格统一，原始英文指令也经过相同流程处理，最终形成中英双语各十万条记录的高质量配对数据。

使用方法

针对指令微调任务，该数据集提供了便捷的应用路径。用户可分别加载中文与英文的JSON文件，每条数据以对话形式组织，包含ID标识与多轮对话内容。在模型训练过程中，可直接利用conversations字段中的角色与内容序列，构建输入输出对。建议使用者结合其他安全对齐数据，以弥补本数据集过滤拒答样本可能带来的模型安全风险。该资源适用于文本生成与文本到文本转换任务，能够有效增强模型的双语指令理解与响应能力。

背景与挑战

背景概述

在自然语言处理领域，指令微调数据集对于提升大型语言模型遵循人类指令的能力至关重要。Blossom Orca V2数据集由Azure99团队于2023年构建，其核心研究问题在于如何高效生成高质量的中英双语指令数据，以支持跨语言模型的微调与对齐。该数据集基于OpenOrca数据集衍生而来，通过系统化的翻译与生成流程，显著提升了中文指令数据的一致性与质量，为多语言对话模型的开发提供了重要资源，推动了指令跟随模型在中文语境下的性能优化与应用拓展。

当前挑战

该数据集旨在解决指令微调领域的数据稀缺与质量不均问题，特别是针对中文指令数据的生成挑战。构建过程中的主要困难包括：确保机器翻译的准确性与自然度，避免文化或语境偏差；依赖单一模型生成响应可能引入系统性错误或偏见；过滤拒答响应虽提升数据可用性，但可能导致模型无法正确处理非法或敏感查询，影响安全性。此外，数据规模与质量之间的平衡，以及未经验证的数据可能包含不实信息，均为实际应用带来潜在风险。

常用场景

经典使用场景

在自然语言处理领域，指令微调已成为提升模型对话能力的关键技术。Blossom Orca V2数据集凭借其精心构建的中英双语指令对，为研究人员提供了高质量的微调资源。该数据集通过优化输出效果并整合系统消息，使得模型能够更精准地理解并响应用户的复杂指令，尤其在多轮对话场景中展现出卓越的适应性。

解决学术问题

该数据集有效应对了跨语言指令对齐与生成质量不一的学术挑战。通过翻译并校验OpenOrca指令，再结合GPT-3.5-turbo-0613生成响应，它解决了传统翻译数据集可能存在的语义偏差问题。其严格的过滤机制剔除了自我认知与拒答内容，为模型对齐研究提供了纯净数据，推动了多语言对话系统在一致性与可靠性方面的理论进展。

实际应用

在实际应用中，Blossom Orca V2广泛服务于智能客服、教育辅助及多语言内容生成等场景。企业可基于该数据集微调模型，构建能流畅处理中英文查询的对话系统，提升用户体验。同时，其均衡的双语配比支持开发跨文化沟通工具，为全球化服务中的语言障碍提供技术解决方案。

数据集最近研究