five

infinityofspace/python_codestyles-mixed1-500

收藏
Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/infinityofspace/python_codestyles-mixed1-500
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为python_codestyles-mixed1-500,包含符合和不符合代码风格的Python代码示例。每个示例由两部分组成:一部分是可能符合或违反代码风格的代码,另一部分是已经符合代码风格的代码示例。数据集结合了两个其他数据集的内容,通过随机选择每个数据集的一半示例来创建。数据集的代码风格在至少一个代码风格规则上有所不同,称为mixed变体。数据集分为训练组和测试组,两组之间的代码风格不重叠,且包含完全不同的基础代码。数据集的代码来源于多个知名的Python仓库。
提供机构:
infinityofspace
原始信息汇总

数据集概述

数据集名称

  • python_codestyles-mixed1-500

数据集描述

  • 该数据集包含符合或违反代码风格的Python代码的正负示例。正示例表示符合代码风格(标签为1)。每个示例由两部分组成:第一部分是符合或违反代码风格的代码,第二部分是已符合代码风格的示例代码。
  • 该数据集通过随机选择两个数据集(infinityofspace/python_codestyles-random-500infinityofspace/python_codestyles-single-500)的一半示例进行组合。
  • 组合数据集中的代码风格至少且仅有一个代码风格规则不同,称为mixed代码风格数据集变体。数据集包含训练和测试组,两组之间没有重叠的代码风格,且两组包含完全不同的底层代码。

数据集特征

  • 特征列表:
    • code: 字符串类型
    • code_codestyle: 64位整数类型
    • style_context: 字符串类型
    • style_context_codestyle: 64位整数类型
    • label: 64位整数类型

数据集分割

  • 训练集:
    • 字节数:1794945328.216033
    • 示例数:153992
  • 测试集:
    • 字节数:326644128.3197262
    • 示例数:28194

数据集大小

  • 下载大小:645473358
  • 数据集大小:2121589456.5357592

许可证

  • MIT

标签

  • python
  • code-style
  • mixed

大小类别

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作