izhx/google-code-jam

Name: izhx/google-code-jam
Creator: izhx
Published: 2024-01-07 12:22:56
License: 暂无描述

Hugging Face2024-01-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/izhx/google-code-jam

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- This dataset is created by [DeepSim: deep learning code functional similarity](https://dl.acm.org/doi/10.1145/3236024.3236068). I downloaded `googlejam4.tar.gz` from [parasol-aser/deepsim](https://github.com/parasol-aser/deepsim/), fixed encoding of `6/googlejam6.p261.Round1B.java` and `1/googlejam1.p815.MushroomMonster.java`, and re-compressed. The `all` split (all 12 problems) is consistent with their paper (I guess...). The `test` split (problem 5, 6, 7, 8, 12) is used in experiments of [Language Models are Universal Embedders](https://arxiv.org/pdf/2310.08232.pdf). | problem | code num | |---------|----------| | 1 | 478 | | 2 | 88 | | 3 | 242 | | 4 | 38 | | 5 | 2 | | 6 | 435 | | 7 | 27 | | 8 | 245 | | 9 | 68 | | 10 | 18 | | 11 | 20 | | 12 | 4 |

许可证：MIT 本数据集源自论文《DeepSim：深度学习代码功能相似度》（DeepSim: deep learning code functional similarity）。本人从[parasol-aser/deepsim](https://github.com/parasol-aser/deepsim/)仓库下载了`googlejam4.tar.gz`，修复了`6/googlejam6.p261.Round1B.java`与`1/googlejam1.p815.MushroomMonster.java`的编码问题后，重新进行了压缩打包。 `all` 划分集（包含全部12个题目）与原论文的划分一致（推测）。 `test` 划分集（对应题目5、6、7、8、12）被用于《语言模型是通用嵌入器》（Language Models are Universal Embedders）的实验研究中。 | 题目编号 | 代码数量 | |---------|----------| | 1 | 478 | | 2 | 88 | | 3 | 242 | | 4 | 38 | | 5 | 2 | | 6 | 435 | | 7 | 27 | | 8 | 245 | | 9 | 68 | | 10 | 18 | | 11 | 20 | | 12 | 4 |

提供机构：

izhx

原始信息汇总

数据集概述

该数据集由DeepSim: deep learning code functional similarity创建。数据集来源于googlejam4.tar.gz，并进行了部分文件的编码修正和重新压缩。

数据集分割

全部问题（all split）：包含所有12个问题，与论文一致。
测试集（test split）：包含问题5、6、7、8、12，用于Language Models are Universal Embedders的实验。

问题详情

问题编号	代码数量
1	478
2	88
3	242
4	38
5	2
6	435
7	27
8	245
9	68
10	18
11	20
12	4

搜集汇总

数据集介绍

构建方式

该数据集源自Google Code Jam编程竞赛的代码提交，经过DeepSim项目的整理与优化。原始数据从parasol-aser/deepsim仓库下载，并对部分文件的编码问题进行了修复和重新压缩。数据集分为`all`和`test`两个子集，其中`all`子集包含12个问题的全部代码，与相关研究论文保持一致；`test`子集则选取了问题5、6、7、8和12，用于特定实验场景。

使用方法

该数据集适用于代码功能相似性分析、代码嵌入模型训练等研究任务。研究者可通过`all`子集获取完整的代码样本，用于模型训练或基准测试；`test`子集则可用于特定实验场景的验证。使用时可结合相关论文的实验设计，提取代码特征或构建嵌入模型，进一步探索代码语义表示与功能相似性之间的关系。

背景与挑战

背景概述

izhx/google-code-jam数据集源于DeepSim项目，该项目旨在通过深度学习技术研究代码功能相似性。该数据集由Google Code Jam竞赛中的代码片段构成，涵盖了12个不同问题的解决方案。数据集的主要研究人员来自Parasol实验室，其研究重点在于利用深度学习模型对代码进行功能相似性分析。该数据集不仅为代码相似性检测提供了丰富的实验材料，还为代码生成和代码理解等领域的进一步研究奠定了基础。

当前挑战

izhx/google-code-jam数据集在构建过程中面临多重挑战。首先，代码片段的编码问题需要修复，以确保数据的完整性和一致性。其次，数据集的划分需与相关研究论文保持一致，这对实验的可重复性提出了严格要求。此外，数据集中某些问题的代码数量较少，可能导致模型训练时的数据不平衡问题。这些挑战不仅影响了数据集的构建过程，也对后续的代码功能相似性研究提出了更高的要求。

常用场景

经典使用场景

在代码相似性分析领域，izhx/google-code-jam数据集被广泛应用于评估深度学习模型在代码功能相似性检测中的表现。该数据集包含了来自Google Code Jam竞赛的多种编程问题的解决方案代码，涵盖了从简单到复杂的各类算法实现。研究者通过该数据集能够深入探讨不同模型在处理代码语义相似性时的性能差异，进而推动代码理解与生成技术的发展。

解决学术问题

izhx/google-code-jam数据集为代码功能相似性检测的研究提供了丰富的实验材料，解决了传统方法在处理复杂代码结构时表现不佳的问题。通过该数据集，研究者能够验证深度学习模型在捕捉代码语义特征方面的有效性，从而为代码克隆检测、代码推荐系统等学术研究提供了有力的支持。该数据集的使用显著提升了相关领域的研究水平，推动了代码分析与理解技术的进步。

实际应用

在实际应用中，izhx/google-code-jam数据集被广泛用于开发智能编程辅助工具。例如，基于该数据集训练的模型可以用于自动检测代码中的功能重复，帮助开发者优化代码结构，提升代码质量。此外，该数据集还被应用于教育领域，用于设计智能编程教学系统，帮助学生通过分析竞赛代码提升编程能力。这些应用场景充分展示了该数据集在推动编程工具智能化方面的潜力。

数据集最近研究