code_search_net_ChatML
收藏Hugging Face2026-04-06 更新2026-04-07 收录
下载链接:
https://huggingface.co/datasets/YCWTG/code_search_net_ChatML
下载链接
链接失效反馈官方服务:
资源简介:
YCWTG/code_search_net_pretraining 是一个用于预训练的数据集,基于 code-search-net/code_search_net 的数据重新整理而成。该数据集将原始的函数体字段统一重命名为 'Assistant' 字段,以便于语言模型训练。数据集包含 1,880,853 行数据,以 JSONL 格式存储在两个文件中(part-00000.jsonl 和 part-00001.jsonl)。每条数据仅包含一个字段:{'Assistant': '<源代码函数字符串>'}, 该字段存储了完整的函数源代码字符串。数据集的处理过程仅涉及字段重命名,未进行过滤、去重或标准化等操作。该数据集适用于需要简单 'Assistant' 架构的代码模型预训练或持续预训练任务。使用时需注意遵守原始数据源的许可要求。
创建时间:
2026-04-06
原始信息汇总
数据集概述:YCWTG/code_search_net_ChatML
基本信息
- 数据集名称:CodeSearchNet Pretraining
- 创建者/发布者:YCWTG
- 语言:代码
- 许可证:其他(与上游数据相同)
- 任务类别:文本生成
- 数据规模:1M<n<10M
- 数据格式:JSONL
- 文件数量:2
- 文件列表:
part-00000.jsonl,part-00001.jsonl - 建议的数据划分:全部文件用于训练(
train)
数据内容与结构
- 总行数(数据条目):1,880,853
- 每条数据模式:包含一个字段
- 字段名:
Assistant - 内容:源代码函数字符串(
<source code function string>)
- 字段名:
- 数据示例: json {"Assistant": "<source code function string>"}
数据处理说明
- 数据来源:原始数据派生自
code-search-net/code_search_net数据集。 - 处理流程:
- 读取源目录
/code_search_net_concat/下的每个JSON行。 - 提取原始字段
whole_func_string的内容。 - 写入新的JSON行,格式为
{"Assistant": whole_func_string}。 - 丢弃所有其他原始字段。
- 读取源目录
- 处理性质:此处理仅限于字段重命名,未应用任何过滤、去重或标准化操作。
预期用途
- 本数据集适用于需要简单
Assistant模式的代码模型预训练或继续预训练。
加载方式
- 可使用
datasets库按以下方式加载: python from datasets import load_dataset ds = load_dataset( "YCWTG/code_search_net_pretraining", data_files={"train": ["part-00000.jsonl", "part-00001.jsonl"]}, split="train", )
来源与归属
- 原始来源仓库:
code-search-net/code_search_net - 本数据集性质:由
YCWTG进行的格式转换与重新打包。 - 使用要求:使用本数据时,请引用或注明原始来源仓库。
许可证信息
- 本重新打包版本未改变上游数据的许可条款。
- 使用者需审查并遵守原始数据源的许可证及任何文件级别的许可义务。
搜集汇总
数据集介绍

构建方式
在代码语言模型预训练领域,数据集的构建方式直接影响模型对编程语言结构的理解能力。该数据集源自code-search-net/code_search_net原始资源,通过结构转换流程实现重构:读取原始JSON行数据,提取whole_func_string字段内容,将其统一映射至Assistant字段,并剔除其余字段。整个过程未引入过滤、去重或标准化操作,仅完成字段重命名,确保代码函数字符串的原始完整性得以保留。
特点
该数据集的核心特点体现在其简洁统一的数据架构与大规模代码样本覆盖。每条数据仅包含Assistant单一字段,其中存储完整的源代码函数字符串,这种设计降低了数据解析复杂度,便于直接应用于语言模型训练。数据规模接近两百万行,涵盖多样化的编程语言范式,为模型提供了丰富的语法结构和逻辑模式学习素材。数据以JSONL格式存储,支持高效流式读取,契合大规模预训练场景的需求。
使用方法
为充分发挥该数据集在代码模型预训练中的价值,用户可通过Hugging Face datasets库便捷加载。调用load_dataset函数并指定数据集名称与数据文件路径,即可将全部数据载入为训练集。加载后的数据可直接迭代访问Assistant字段内容,获取原始代码函数字符串。这种使用方法既简化了数据预处理流程,又保持了与主流预训练框架的兼容性,支持持续预训练或领域自适应微调等应用场景。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码智能研究致力于提升机器理解、生成与检索代码的能力。CodeSearchNet数据集由GitHub与相关研究机构于2019年共同构建,旨在为代码搜索与表示学习任务提供大规模、多语言的语料支持。该数据集汇聚了数百万个函数级代码片段及其对应的自然语言文档,核心研究问题聚焦于跨越编程语言与人类语言的语义鸿沟,从而推动代码摘要、检索及生成模型的发展。其对开源生态与自动化编程工具产生了深远影响,成为代码预训练模型的重要基石。
当前挑战
该数据集所针对的代码搜索与表示学习任务面临多重挑战:代码的语法结构复杂多样,且不同编程语言之间存在显著差异;自然语言注释与代码之间的语义对齐往往不够精确,存在噪声与歧义;同时,代码的功能性、效率与可读性等多维度特性难以统一建模。在构建过程中,原始数据需从海量开源仓库中提取并清洗,涉及代码解析、语言识别与配对标注,处理流程需兼顾规模与质量;此外,数据版权与许可协议的合规性审查亦是一项繁琐而关键的工作,以确保研究应用的合法性。
常用场景
经典使用场景
在代码智能领域,该数据集为大规模语言模型预训练提供了核心资源。其经典使用场景聚焦于代码生成与理解任务,通过将原始函数体字符串统一映射至“Assistant”字段,简化了模型输入格式,便于直接应用于自回归或掩码语言建模框架。这种设计使得模型能够从海量开源代码中学习语法结构、编程逻辑及API使用模式,为下游任务奠定坚实基础。
解决学术问题
该数据集有效应对了代码表示学习中的关键挑战,包括代码语义嵌入、跨语言代码迁移及程序合成中的泛化能力问题。通过提供大规模、多样化的函数级代码样本,它支持研究者探索代码的深层语义特征,推动代码搜索、缺陷检测及自动补全等方向的发展。其标准化格式降低了数据预处理复杂度,加速了代码智能领域的实验迭代与模型比较。
衍生相关工作
围绕该数据集衍生的经典工作主要包括代码预训练模型架构创新,如CodeBERT、CodeT5及GPT-Code等。这些研究利用其大规模代码语料探索了跨模态代码表示、序列到序列代码转换及代码摘要生成等任务。同时,它促进了代码检索基准的构建与评估,为代码智能社区的模型性能比较提供了统一的数据基础,推动了领域内开源协作与技术进步。
以上内容由遇见数据集搜集并总结生成



