dolphin-r1-korean-deepseek-parsed

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/minpeter/dolphin-r1-korean-deepseek-parsed

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是原始exp-models/dolphin-r1-korean-deepseek-toolcalls数据集的子集，包含了翻译成韩语的含有tool_calls的数据。它被用于文本生成任务，并且支持并行处理。数据集包含两种配置：推理工具调用和非推理工具调用。每个配置都有1757条数据，不支持多轮对话。

创建时间：

2025-05-28

原始信息汇总

[PARSED] dolphin R1 korean deepseek (toolcalls) 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语 (en)

数据集配置

配置名称: reasoning-tool-calls
- 数据文件: dolphin-r1-korean-deepseek.parquet
- 默认配置: 是
配置名称: non-reasoning-tool-calls
- 数据文件: dolphin-r1-korean-deepseek-non-reasoning.parquet

数据集详情

来源: 原始数据集为 exp-models/dolphin-r1-korean-deepseek-toolcalls 的子集
处理: 删除了第1273行（因代理错误）
原始数据: 来自 cognitivecomputations/dolphin-r1 的 reasoning_deepseek 分割，仅包含 tool_calls 的数据并翻译为韩语

子集信息

子集名称	多轮对话	并行	多重定义	最后一轮类型	数据集数量
dolphin-r1-korean-deepseek	否	是	是	tool_calls	1757
dolphin-r1-korean-deepseek-non-reasoning	否	是	是	tool_calls	1757

加载数据集

python from datasets import load_dataset

ds = load_dataset("minpeter/dolphin-r1-korean-deepseek-parsed", data_files="*.parquet") print(ds)

DatasetDict({

train: Dataset({

features: [messages, tools, extra],

num_rows: 1000

})

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言工具调用数据集的构建对跨语言模型训练具有重要意义。该数据集源自cognitivecomputations/dolphin-r1原始数据集的reasoning_deepseek子集，经过严格筛选仅保留包含工具调用的数据样本，并通过专业翻译流程将其转换为韩语版本。构建过程中采用并行处理技术确保数据一致性，同时剔除了存在代理错误的无效数据行，最终形成包含1757条高质量样本的两个子集。

使用方法

该数据集通过HuggingFace平台以Parquet格式发布，支持灵活加载方式。研究人员可使用datasets库直接加载完整数据集或特定子集，加载后的数据结构包含messages、tools和extra三个关键字段。典型应用场景包括韩语工具调用模型微调、跨语言工具使用模式分析等。数据加载时建议检查样本完整性，并注意两个子集在推理需求上的差异特性。

背景与挑战

背景概述

dolphin-r1-korean-deepseek-parsed数据集源于对认知计算领域多语言工具调用研究的深化探索，由研究团队exp-models基于cognitivecomputations/dolphin-r1数据集的核心子集构建。该数据集专注于韩语环境下的工具调用推理任务，通过精选原始数据中涉及工具调用的推理样本并进行专业翻译，形成了包含1757条平行语料的标准化集合。其构建体现了跨语言知识迁移的前沿趋势，为东亚语言场景下的工具调用范式研究提供了重要基准。

当前挑战

该数据集面临的核心挑战体现在语义对齐与功能一致性两个维度。在领域问题层面，韩语与英语的语法结构差异导致工具调用指令的精确转换存在困难，需解决跨语言工具参数映射的准确性问题。构建过程中，原始数据的多轮对话特性要求严格保持工具调用逻辑链的完整性，而Unicode代理对错误等底层技术问题亦需特殊处理。非推理子集的并行构建进一步增加了数据标注的复杂度，要求开发严格的验证机制确保不同子集间的定义统一性。

常用场景

经典使用场景

在自然语言处理领域，dolphin-r1-korean-deepseek-parsed数据集为研究者提供了一个高质量的韩语工具调用对话数据集。该数据集特别适用于研究多轮对话系统中的工具调用机制，其独特的并行结构和多定义特性使其成为测试和优化对话代理的理想选择。数据集中的工具调用标注为开发能够理解和执行复杂指令的智能助手提供了宝贵资源。

解决学术问题

该数据集有效解决了跨语言工具调用对话系统研究中的数据稀缺问题。通过提供高质量的韩语翻译版本，研究者能够探索非英语环境下工具调用的语言特性和文化适应性。数据集中的多定义标注为研究语义歧义消解提供了实验基础，而其并行结构则为对比分析不同对话策略的效果创造了条件。

实际应用

在实际应用中，该数据集可显著提升韩语智能助手的开发效率。科技公司可利用其中的工具调用范例训练客服机器人，使其能够准确理解用户指令并调用相应API。教育领域可基于该数据集开发语言学习应用，帮助学习者掌握工具调用的专业表达。数据集的非推理版本特别适合需要快速响应的商业场景。

数据集最近研究