magpie-qwen3-235B-A22B-bokmaal
收藏Hugging Face2025-05-19 更新2025-05-20 收录
下载链接:
https://huggingface.co/datasets/versae/magpie-qwen3-235B-A22B-bokmaal
下载链接
链接失效反馈官方服务:
资源简介:
Magpie-Qwen3-235B-A22B挪威语Bokmål指令数据集是由挪威国家图书馆创建和维护的一个数据集,包含大约2000个单轮指令-响应对,使用Qwen3-235B-A22B模型(一种混合专家模型,拥有2350亿个参数,每次推理激活220亿个参数)通过Magpie自合成管道生成。该数据集覆盖了编程、推理、数据分析、数学、编辑、创意写作、角色扮演、头脑风暴、寻求建议和信息寻求等多个领域。
创建时间:
2025-05-05
原始信息汇总
📄 数据集卡片:Magpie-Qwen3-235B-A22B 挪威博克马尔语指令数据集
🧾 概述
- 名称:Magpie-Qwen3-235B-A22B 挪威博克马尔语指令数据集
- 语言:挪威博克马尔语 (nb)
- 创建者:挪威国家图书馆
- 源模型:Qwen3-235B-A22B(混合专家模型,2350亿总参数/220亿激活参数)
- 生成方法:Magpie 自合成流程
- 数据类型:单轮指令-响应对
- 许可证:Apache 2.0
- 发布日期:2025年5月
- 维护者:挪威国家图书馆
🧠 模型与生成详情
- 模型架构:Qwen3-235B-A22B 是一个混合专家模型(MoE),具有2350亿总参数,每次推理激活220亿参数。支持“思考”(逐步推理)和“非思考”(直接响应)模式。
- Magpie框架:采用自合成方法,由对齐的LLMs生成提示和响应,无需外部种子数据。
📊 数据集构成
- 总实例数:约2000个单轮指令-响应对
- 格式:每个条目包含用户指令和相应的模型生成响应
- 覆盖领域:
| 类别 | 数量 |
|---|---|
| 编程 | 284 |
| 推理 | 276 |
| 数据分析 | 220 |
| 数学 | 220 |
| 编辑 | 200 |
| 创意写作 | 196 |
| 角色扮演 | 188 |
| 头脑风暴 | 132 |
| 寻求建议 | 128 |
| 信息查询 | 84 |
| 规划 | 72 |
⚠️ 局限性
- 合成性质:数据由模型生成,可能缺乏人类创作内容的多样性和细微差别。
- 偏见:源模型固有的潜在偏见可能反映在数据集中。
- 领域覆盖:虽然多样,但某些专业领域可能代表性不足。
- 数据清理:数据集未经任何清理或后处理。
🔗 访问与资源
- 数据集仓库:Magpie-Qwen3-235B-A22B Norwegian Bokmål Dataset on Hugging Face
- 模型卡片:Qwen3-235B-A22B on Hugging Face
- Magpie框架:待定
📚 引用
@article{xu2024magpie, title={Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing}, author={Zhangchen Xu and Fengqing Jiang and Luyao Niu and Yuntian Deng and Radha Poovendran and Yejin Choi and Bill Yuchen Lin}, journal={arXiv preprint arXiv:2406.08464}, year={2024} }
搜集汇总
数据集介绍

构建方式
该数据集由挪威国家图书馆采用Magpie自合成框架构建,基于Qwen3-235B-A22B混合专家模型生成。该模型具备2350亿总参数和每次推理激活220亿参数的能力,支持逐步推理和直接响应两种模式。通过自合成方法,模型无需外部种子数据即可生成指令-响应对,确保了数据与模型能力的高度一致性。数据集包含约2000条单轮指令-响应对,涵盖编程、推理、数据分析等11个领域。
特点
作为专注于挪威博克马尔语的指令数据集,其显著特点体现在模型架构的先进性和领域覆盖的多样性。Qwen3-235B-A22B混合专家模型赋予生成内容较强的逻辑性和专业性,而自合成框架则保障了指令与响应间的内在一致性。数据集特别强化了技术类任务占比,编程、推理和数据分析三类占比超过35%,同时保留创意写作、角色扮演等开放性任务以维持平衡。值得注意的是,所有数据均保留原始生成状态,未经过人工清洗或后处理。
使用方法
研究者可通过Hugging Face平台直接获取该数据集,建议使用前进行必要的质量筛查和偏差检测。由于数据包含模型固有偏差且未经后处理,在关键应用场景中应建立验证机制。数据集特别适用于挪威语大语言模型的指令微调研究,技术类任务数据可用于构建专业领域评估基准。引用时需遵循Apache 2.0许可协议,并建议同时引用原始Magpie论文以尊重学术规范。
背景与挑战
背景概述
Magpie-Qwen3-235B-A22B挪威博克马尔指令数据集由挪威国家图书馆于2025年5月发布,旨在为挪威博克马尔语(Bokmål)提供高质量的指令微调数据。该数据集基于Qwen3-235B-A22B混合专家模型(MoE)构建,采用自合成管道技术生成单轮指令-响应对,覆盖编程、推理、数据分析、数学等多个领域。作为北欧语言资源的重要补充,该数据集为低资源语言的指令微调研究提供了新的基准,推动了多语言大模型在斯堪的纳维亚地区的应用发展。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域适应性方面,模型生成的数据可能难以完全捕捉人类语言表达的细微差异,导致在创意写作等需要高度语义理解的场景中表现受限;数据构建方面,自合成方法虽然能生成大规模数据,但可能继承源模型的偏见,且未经过人工清洗的原始数据需要使用者自行验证。此外,作为小语种数据集,其在专业领域(如法律、医疗)的覆盖不足也制约了模型的泛化能力。
常用场景
经典使用场景
在挪威语自然语言处理研究中,Magpie-Qwen3-235B-A22B数据集作为高质量的挪威博克马尔语指令数据集,为研究者提供了丰富的单轮对话样本。该数据集特别适用于训练和评估挪威语大语言模型,尤其在多领域指令理解与生成任务中展现出独特价值。其覆盖编程、逻辑推理、数据分析等11个领域的特点,使其成为跨领域语言模型研究的理想基准。
衍生相关工作
基于该数据集已衍生出多项重要研究,包括挪威科技大学开发的Bokmål-BERT预训练模型,以及奥斯陆大学提出的北欧语言MoE架构优化方案。其引用的Magpie框架论文已成为自合成数据生成领域的经典文献,启发了后续如Swan-LM等多语言数据合成项目的发展。
数据集最近研究
最新研究方向
在挪威博克马尔语(Bokmål)自然语言处理领域,Magpie-Qwen3-235B-A22B数据集代表了当前自合成指令数据集的前沿探索。该数据集依托2350亿参数的混合专家模型Qwen3,通过Magpie自合成框架实现了零样本数据生成,为低资源语言的大模型对齐研究提供了新范式。近期研究聚焦于其多领域覆盖特性在跨语言迁移学习中的应用,特别是在编程辅助、逻辑推理等专业场景下的少样本适应能力。2024年arXiv发表的Magpie框架论文揭示了自合成数据在缓解人工标注瓶颈方面的潜力,这一技术路径正引发对合成数据可信度评估方法的热议。
以上内容由遇见数据集搜集并总结生成



