Deepseek-9B-Ko-self-verify

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/jaeyong2/Deepseek-9B-Ko-self-verify

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含content, response等字段的数据集，主要用于训练和测试自然语言处理模型。数据集包含16071个训练示例，全部为韩语。数据集分为训练集，总大小约为1.5GB。

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

在代码生成与验证领域，Deepseek-9B-Ko-self-verify数据集通过系统化流程构建。数据来源于大规模韩语代码生成任务，采用自动化解析与执行验证机制。每条样本包含代码内容、模型响应及解析执行结果，严格遵循三项验证规则：生成函数是否可解析、解析后是否可执行、执行结果与模型预测是否一致，确保数据的高可靠性。

特点

该数据集以韩语代码生成为核心，突出自我验证特性。其结构化特征包含原始代码内容、多序列响应及解析状态标签，支持细粒度分析。16071条样本涵盖丰富代码场景，解析成功与失败结果并行记录，为模型调试与性能评估提供多维视角。数据规模达1.65GB，兼具深度与广度。

使用方法

使用者可通过HuggingFace数据集库直接加载该资源，默认配置包含训练集拆分。应用时需关注content字段的原始代码输入，结合response序列分析模型输出，并通过parsing_success、parsing_failed及success_results字段验证代码执行一致性。该设计适用于代码生成模型的训练、验证及自动化测试 pipeline 构建。

背景与挑战

背景概述

Deepseek-9B-Ko-self-verify数据集由DeepSeek研究团队于2024年推出，专注于代码生成与验证领域。该数据集旨在解决大型语言模型在代码生成过程中可能出现的逻辑错误与执行不一致问题，通过自我验证机制提升生成代码的可靠性与准确性。其核心研究问题在于如何通过自动化验证流程确保模型生成的代码不仅语法正确，更能通过执行验证实现功能一致性，对推动代码智能生成技术的发展具有重要影响力。

当前挑战

该数据集面临的领域挑战在于代码生成模型需同时保证语法解析与执行结果的双重正确性，具体包括生成代码的解析成功率、执行结果与预期的一致性验证等。构建过程中的挑战主要体现为大规模代码数据的采集与清洗、验证规则的自动化实施，以及如何高效处理多语言代码（特别是韩语语境）的独特语法结构与执行环境兼容性问题。

常用场景

经典使用场景

在代码生成与验证领域，Deepseek-9B-Ko-self-verify数据集被广泛应用于大语言模型的自我验证能力测试。研究者通过该数据集评估模型生成的代码片段是否能够被正确解析和执行，同时比对模型预测结果与实际执行结果的一致性，从而系统检验代码生成功能的可靠性。

实际应用

在工业界代码自动生成场景中，该数据集为开发智能编程助手提供了关键训练素材。工程师利用其构建的验证机制可有效检测生成代码的运行时错误，显著提升集成开发环境中代码补全功能的准确性，特别是在需要高可靠性保障的金融系统和嵌入式软件开发领域具有重要应用价值。

衍生相关工作

基于该数据集验证框架，研究者开发了多种代码自验证神经网络架构，如动态执行树验证器和语义一致性检测器。这些衍生工作不仅完善了代码生成模型的评估体系，还催生了新一代具有自我纠错能力的编程辅助系统，推动了整个领域向更安全可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集