magpie-qwen3-235B-A22B-bokmaal

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/versae/magpie-qwen3-235B-A22B-bokmaal

下载链接

链接失效反馈

官方服务：

资源简介：

Magpie-Qwen3-235B-A22B挪威语Bokmål指令数据集是由挪威国家图书馆创建和维护的一个数据集，包含大约2000个单轮指令-响应对，使用Qwen3-235B-A22B模型（一种混合专家模型，拥有2350亿个参数，每次推理激活220亿个参数）通过Magpie自合成管道生成。该数据集覆盖了编程、推理、数据分析、数学、编辑、创意写作、角色扮演、头脑风暴、寻求建议和信息寻求等多个领域。

创建时间：

2025-05-05

原始信息汇总

📄 数据集卡片：Magpie-Qwen3-235B-A22B 挪威博克马尔语指令数据集

🧾 概述

名称：Magpie-Qwen3-235B-A22B 挪威博克马尔语指令数据集
语言：挪威博克马尔语 (nb)
创建者：挪威国家图书馆
源模型：Qwen3-235B-A22B（混合专家模型，2350亿总参数/220亿激活参数）
生成方法：Magpie 自合成流程
数据类型：单轮指令-响应对
许可证：Apache 2.0
发布日期：2025年5月
维护者：挪威国家图书馆

🧠 模型与生成详情

模型架构：Qwen3-235B-A22B 是一个混合专家模型（MoE），具有2350亿总参数，每次推理激活220亿参数。支持“思考”（逐步推理）和“非思考”（直接响应）模式。
Magpie框架：采用自合成方法，由对齐的LLMs生成提示和响应，无需外部种子数据。

📊 数据集构成

总实例数：约2000个单轮指令-响应对
格式：每个条目包含用户指令和相应的模型生成响应
覆盖领域：

类别	数量
编程	284
推理	276
数据分析	220
数学	220
编辑	200
创意写作	196
角色扮演	188
头脑风暴	132
寻求建议	128
信息查询	84
规划	72

⚠️ 局限性

合成性质：数据由模型生成，可能缺乏人类创作内容的多样性和细微差别。
偏见：源模型固有的潜在偏见可能反映在数据集中。
领域覆盖：虽然多样，但某些专业领域可能代表性不足。
数据清理：数据集未经任何清理或后处理。

🔗 访问与资源

数据集仓库：Magpie-Qwen3-235B-A22B Norwegian Bokmål Dataset on Hugging Face
模型卡片：Qwen3-235B-A22B on Hugging Face
Magpie框架：待定

📚 引用

@article{xu2024magpie, title={Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing}, author={Zhangchen Xu and Fengqing Jiang and Luyao Niu and Yuntian Deng and Radha Poovendran and Yejin Choi and Bill Yuchen Lin}, journal={arXiv preprint arXiv:2406.08464}, year={2024} }

搜集汇总

数据集介绍

构建方式

该数据集由挪威国家图书馆采用Magpie自合成框架构建，基于Qwen3-235B-A22B混合专家模型生成。该模型具备2350亿总参数和每次推理激活220亿参数的能力，支持逐步推理和直接响应两种模式。通过自合成方法，模型无需外部种子数据即可生成指令-响应对，确保了数据与模型能力的高度一致性。数据集包含约2000条单轮指令-响应对，涵盖编程、推理、数据分析等11个领域。

特点

作为专注于挪威博克马尔语的指令数据集，其显著特点体现在模型架构的先进性和领域覆盖的多样性。Qwen3-235B-A22B混合专家模型赋予生成内容较强的逻辑性和专业性，而自合成框架则保障了指令与响应间的内在一致性。数据集特别强化了技术类任务占比，编程、推理和数据分析三类占比超过35%，同时保留创意写作、角色扮演等开放性任务以维持平衡。值得注意的是，所有数据均保留原始生成状态，未经过人工清洗或后处理。

使用方法

研究者可通过Hugging Face平台直接获取该数据集，建议使用前进行必要的质量筛查和偏差检测。由于数据包含模型固有偏差且未经后处理，在关键应用场景中应建立验证机制。数据集特别适用于挪威语大语言模型的指令微调研究，技术类任务数据可用于构建专业领域评估基准。引用时需遵循Apache 2.0许可协议，并建议同时引用原始Magpie论文以尊重学术规范。

背景与挑战

背景概述

Magpie-Qwen3-235B-A22B挪威博克马尔指令数据集由挪威国家图书馆于2025年5月发布，旨在为挪威博克马尔语（Bokmål）提供高质量的指令微调数据。该数据集基于Qwen3-235B-A22B混合专家模型（MoE）构建，采用自合成管道技术生成单轮指令-响应对，覆盖编程、推理、数据分析、数学等多个领域。作为北欧语言资源的重要补充，该数据集为低资源语言的指令微调研究提供了新的基准，推动了多语言大模型在斯堪的纳维亚地区的应用发展。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域适应性方面，模型生成的数据可能难以完全捕捉人类语言表达的细微差异，导致在创意写作等需要高度语义理解的场景中表现受限；数据构建方面，自合成方法虽然能生成大规模数据，但可能继承源模型的偏见，且未经过人工清洗的原始数据需要使用者自行验证。此外，作为小语种数据集，其在专业领域（如法律、医疗）的覆盖不足也制约了模型的泛化能力。

常用场景

经典使用场景

在挪威语自然语言处理研究中，Magpie-Qwen3-235B-A22B数据集作为高质量的挪威博克马尔语指令数据集，为研究者提供了丰富的单轮对话样本。该数据集特别适用于训练和评估挪威语大语言模型，尤其在多领域指令理解与生成任务中展现出独特价值。其覆盖编程、逻辑推理、数据分析等11个领域的特点，使其成为跨领域语言模型研究的理想基准。

衍生相关工作

基于该数据集已衍生出多项重要研究，包括挪威科技大学开发的Bokmål-BERT预训练模型，以及奥斯陆大学提出的北欧语言MoE架构优化方案。其引用的Magpie框架论文已成为自合成数据生成领域的经典文献，启发了后续如Swan-LM等多语言数据合成项目的发展。

数据集最近研究