five

Azure99/blossom-wizard-v2

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Azure99/blossom-wizard-v2
下载链接
链接失效反馈
官方服务:
资源简介:
Blossom Wizard V2是一个基于WizardLM_evol_instruct_V2衍生而来的中英双语指令数据集,适用于指令微调。相比于前一版本,本数据集优化了输出效果,并通过翻译和调用gpt-3.5-turbo-0613模型生成响应,确保了中英数据配比和响应风格的一致性。数据集包含100K记录,本次发布了全量数据的30%,即中英双语各50K。数据集结构包含两个文件,分别对应中文和英文的数据,每条数据代表一个完整的对话,包含id和conversations两个字段。

Blossom Wizard V2是一个基于WizardLM_evol_instruct_V2衍生而来的中英双语指令数据集,适用于指令微调。相比于前一版本,本数据集优化了输出效果,并通过翻译和调用gpt-3.5-turbo-0613模型生成响应,确保了中英数据配比和响应风格的一致性。数据集包含100K记录,本次发布了全量数据的30%,即中英双语各50K。数据集结构包含两个文件,分别对应中文和英文的数据,每条数据代表一个完整的对话,包含id和conversations两个字段。
提供机构:
Azure99
原始信息汇总

BLOSSOM WIZARD V2 数据集概述

介绍

Blossom Wizard V2 是一个基于 WizardLM_evol_instruct_V2 衍生而来的中英双语指令数据集,适用于指令微调。该数据集通过翻译和优化原始指令,使用 gpt-3.5-turbo-0613 模型生成响应,并过滤掉包含自我认知及拒绝回答的响应,以确保响应风格的一致性和中英数据配比。本次发布的数据包含中英双语各50K,共计100K记录。

语言

数据集主要包含中文和英文。

数据集结构

数据集包含两个文件:

  • blossom-wizard-v1-chinese-50k.json:中文数据
  • blossom-wizard-v1-english-50k.json:英文数据

每条数据包含以下字段:

  • id:字符串,代表原始 WizardLM_evol_instruct_V2 的指令 id。
  • conversations:对象数组,每个对象包含 rolecontent 两个字段,role 取值为 userassistant,分别代表用户输入和助手输出,content 则为对应的内容。

数据集限制

  • 所有响应均由 gpt-3.5-turbo-0613 生成,未经过严格的数据校验,可能包含不准确甚至严重错误的回答。
  • 由于过滤了拒答响应,仅使用本数据集训练的模型,可能不会拒绝非法的请求。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量的指令数据集对于模型微调至关重要。Blossom Wizard V2数据集的构建始于对WizardLM_evol_instruct_V2原始指令的精心抽取,随后通过专业翻译流程将其转化为中文,并经过严格校验以确保语义准确性。利用gpt-3.5-turbo-0613模型生成响应后,团队系统性地过滤了涉及自我认知或拒绝回答的内容,以提升数据的对齐效果。为维持中英双语平衡与风格统一,原始英文指令也经历了相同的处理流程,最终形成了一比一的双语配对结构。
特点
该数据集的核心特点体现在其卓越的双语一致性与优化输出质量上。相较于单纯翻译而来的数据集,Blossom Wizard V2通过并行生成机制确保了中英文响应在逻辑和风格上的高度协调。数据集收录了十万条精选记录,涵盖多样化的指令场景,每条数据均以结构化对话形式呈现,包含清晰的用户与助手角色标识。尽管数据规模适中,但其精心设计的过滤策略有效提升了内容的可用性,为跨语言模型训练提供了扎实基础。
使用方法
研究人员可将该数据集直接应用于文本生成与文本到文本转换任务的指令微调过程中。数据集以标准JSON格式组织,用户能够便捷地通过对话字段中的角色与内容信息构建训练样本。在实际使用中,建议结合其他安全对齐数据集以弥补其过滤拒答响应可能带来的局限性,并需对模型输出进行必要的验证与校准,以确保生成内容的准确性与可靠性。
背景与挑战
背景概述
在自然语言处理领域,指令微调数据集对于提升大型语言模型遵循人类指令的能力至关重要。Blossom Wizard V2数据集由Azure99团队于2023年构建,其核心研究问题在于如何生成高质量的中英双语指令数据,以优化模型在跨语言环境下的指令遵循与响应生成性能。该数据集基于WizardLM_evol_instruct_V2衍生而来,通过翻译与模型生成相结合的策略,旨在解决以往单纯翻译数据可能导致的质量不一致问题,为多语言指令微调研究提供了重要资源,推动了对话系统与语言模型对齐技术的发展。
当前挑战
该数据集致力于应对指令微调中高质量双语数据稀缺的挑战,特别是在确保中英文指令语义对齐与响应自然性方面存在难度。构建过程中的挑战包括:首先,从原始英文指令到中文的翻译需保持指令意图的精确传递,避免语义失真;其次,依赖GPT-3.5-turbo-0613生成响应可能引入模型固有偏见或错误信息,且过滤拒答响应可能导致模型安全性下降,无法处理非法请求;此外,平衡中英数据比例与响应风格一致性需精细设计流程,增加了数据清洗与校验的复杂性。
常用场景
经典使用场景
在自然语言处理领域,指令微调是提升模型遵循人类意图能力的关键技术。Blossom Wizard V2数据集凭借其高质量的中英双语指令对,为研究人员提供了丰富的训练资源。该数据集通过优化输出效果,确保了指令与响应之间的一致性,使其成为指令微调任务中的经典选择,广泛应用于模型对齐和对话系统开发。
解决学术问题
该数据集有效解决了指令微调中数据质量与语言多样性的学术挑战。通过精心翻译和生成响应,它提供了高质量的中英双语数据,帮助模型更好地理解跨语言指令,减少文化偏差。其意义在于推动了多语言指令跟随模型的发展,为对齐研究提供了可靠基准,促进了人机交互技术的进步。
衍生相关工作
基于Blossom Wizard V2数据集,衍生出多项经典研究工作,包括多语言指令微调模型的改进和评估框架的构建。这些工作利用数据集的高质量特性,探索了模型在复杂指令下的表现,推动了如Blossom系列模型的迭代,为后续研究提供了重要参考和灵感。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作