Qwen3-06B-Ko-DPO-2

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/jaeyong2/Qwen3-06B-Ko-DPO-2

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含数学问题的数据集，其中每个问题都有提示(prompt)、选中的答案(chosen)和被拒绝的答案(rejected)。每个答案都包含内容和角色信息。数据集全部为韩语，并分为训练集。训练集包含26112个数学问题实例，数据集大小为269677305字节。

创建时间：

2025-06-06

原始信息汇总

数据集概述

基本信息

数据集名称: Qwen3-06B-Ko-DPO-2
语言: 韩语 (ko)
许可证: other
下载大小: 100411525 bytes
数据集大小: 269677305 bytes

数据集结构

特征:
- prompt:
  - content: string
  - role: string
- chosen:
  - content: string
  - role: string
- rejected:
  - content: string
  - role: string
拆分:
- train:
  - 样本数: 26112
  - 字节数: 269677305

开发过程

问题数据集来源: kuotient/orca-math-word-problems-193k-korean
使用 Qwen/Qwen3-0.6B 生成答案候选 (n=32)
使用 Qwen/Qwen3-14B 评估候选答案的适当性

许可证

Qwen/Qwen3-0.6B: Apache-2.0
Qwen/Qwen3-14B: Apache-2.0
kuotient/orca-math-word-problems-193k-korean: CC-BY-SA-4.0

致谢

本研究由 TPU Research Cloud program 支持。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量数据集的构建往往需要多阶段精细处理。Qwen3-06B-Ko-DPO-2数据集以kuotient团队整理的19.3万韩语数学应用题为基础语料，通过两阶段生成式模型进行数据增强。首先采用Qwen3-0.6B模型批量生成32组候选答案，随后调用参数量更大的Qwen3-14B模型对候选答案进行质量评估，最终形成包含2.6万条样本的偏好数据对。这种层次化构建方法有效确保了数据质量与多样性。

使用方法

作为典型的偏好对齐数据集，其主要应用于对话模型的直接偏好优化(DPO)训练。使用者可加载标准transformers库处理数据，通过prompt-chosen-rejected三元组结构指导模型学习回答质量判别。数据分片存储的设计支持流式读取，适合分布式训练环境。需要特别注意的是，由于基础语料采用CC-BY-SA-4.0许可，衍生模型需遵守相同协议。TPU Research Cloud的技术支持表明该数据集适合在加速硬件环境下进行大规模训练。

背景与挑战

背景概述

Qwen3-06B-Ko-DPO-2数据集是近年来自然语言处理领域中针对韩语数学问题解决任务而构建的专业数据集。该数据集由TPU Research Cloud项目支持的研究团队开发，主要基于kuotient/orca-math-word-problems-193k-korean数据集中的问题构建，并利用Qwen系列预训练语言模型生成和评估答案候选。其核心研究问题聚焦于提升韩语数学问题的自动解答能力，为韩语自然语言处理领域提供了重要的基准数据。该数据集的构建体现了跨语言迁移学习和偏好优化技术在特定领域应用的最新进展。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，韩语数学问题的复杂语义理解和多步推理要求模型具备强大的语言理解和逻辑推理能力，这对现有自然语言处理技术提出了较高要求；在构建过程层面，答案候选的生成和评估依赖于不同规模的Qwen模型，如何确保生成答案的多样性和评估标准的统一性成为关键挑战。同时，数据集的构建涉及多个来源的授权协议，在合规使用方面也需要特别注意。

常用场景

经典使用场景

在自然语言处理领域，Qwen3-06B-Ko-DPO-2数据集为研究者提供了一个高质量的韩语数学问题解答对资源。该数据集通过精心设计的提示-选择-拒绝三元组结构，特别适用于训练和评估对话系统的偏好学习能力。其核心价值在于捕捉人类对回答质量的细微判断标准，为韩语环境下的大语言模型对齐研究提供了关键数据支撑。

解决学术问题

该数据集有效解决了韩语数学问题生成与评估领域的三个关键问题：多轮对话场景下的答案质量评估、基于偏好的模型微调数据稀缺性，以及小参数模型生成答案的可靠性验证。通过Qwen3-14B作为评判模型构建的偏好数据，为研究社区提供了研究模型行为对齐的量化基准，显著提升了韩语NLP任务中偏好学习的可解释性研究水平。

实际应用

在教育科技领域，该数据集支撑的模型可应用于韩语智能辅导系统，通过区分优质与劣质答案提升教学反馈质量。其构建方法为多语言客服机器人开发提供了技术范式，特别是在需要精确评估回答适切性的金融、医疗等专业领域。数据集包含的数学问题解决轨迹也为自适应学习系统提供了丰富的训练素材。

数据集最近研究