five

infinityofspace/python_codestyles-single-500

收藏
Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/infinityofspace/python_codestyles-single-500
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Python代码的正面和负面示例,用于评估代码是否符合代码风格。正面示例表示代码符合代码风格(标签为1)。每个示例由两部分组成:一部分是代码,另一部分是符合代码风格的示例代码。数据集包含500种不同的代码风格,且每种风格仅在一个代码风格规则上有所不同。数据集分为训练组和测试组,两组之间的代码风格不重叠。此外,数据集中代码的来源仓库包括TheAlgorithms/Python、huggingface/transformers、huggingface/datasets、huggingface/diffusers和huggingface/accelerate等。代码风格信息可以在additional_data.json文件中找到。数据集共有182,184个样本,其中91,084个为正面样本,91,100个为负面样本。
提供机构:
infinityofspace
原始信息汇总

数据集概述

数据集名称

python_codestyles-single-500

数据集描述

该数据集包含符合或违反代码风格的Python代码的正负示例。正示例表示符合代码风格(标签为1)。每个示例由两部分组成,第一部分是符合或违反代码风格的代码,第二部分是已符合代码风格的示例代码。数据集总共包含500种完全不同的代码风格,这些代码风格在单一代码风格规则上有所不同,称为single代码风格数据集变体。数据集分为训练组和测试组,两组之间没有重叠的代码风格,且包含完全不同的底层代码。

数据集特征

  • code: 字符串类型
  • code_codestyle: 64位整数类型
  • style_context: 字符串类型
  • style_context_codestyle: 64位整数类型
  • label: 64位整数类型

数据集划分

  • train: 包含153991个样本,大小为1784386100字节
  • test: 包含28193个样本,大小为323920285字节

数据集大小

  • 下载大小: 320183832字节
  • 数据集大小: 2108306385字节

许可证

MIT

标签分布

  • 总共182184个样本
  • 正样本: 91084个
  • 负样本: 91100个

相关文件

  • 代码风格的对应信息可在additional_data.json文件中找到,该文件按训练组和测试组划分,索引对应数据集中code_codestylestyle_context_codestyle列的类别。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作