five

JEMMA

收藏
arXiv2022-12-19 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2212.09132v1
下载链接
链接失效反馈
官方服务:
资源简介:
JEMMA是一个面向机器学习源代码应用的可扩展Java数据集,旨在通过提供实验源代码模型和任务的基础组件,降低机器学习源代码领域的入门门槛。该数据集包含50,000个Java项目的大量预处理信息,如元数据、表示形式(例如代码令牌、AST、图表)和多种属性(例如度量、静态分析结果),总计超过120万个类和800万个方法。JEMMA还允许用户添加新的属性和表示形式,并对其上的任务进行评估,从而成为研究人员可以用来实验新表示形式和任务的工作台。

JEMMA is a scalable Java dataset tailored for machine learning on source code applications. It aims to lower the barrier to entry for the field of machine learning on source code by providing foundational components for experimental source code models and tasks. This dataset contains extensive preprocessed information from 50,000 Java projects, including metadata, representation formats (e.g., code tokens, ASTs, graphs), and various attributes (e.g., metrics, static analysis results), totaling over 1.2 million classes and 8 million methods. JEMMA also enables users to add new attributes and representation formats, as well as evaluate tasks built upon it, making it a workbench that researchers can use to experiment with novel representation formats and tasks.
创建时间:
2022-12-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作