five

notional/notional-python

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/notional/notional-python
下载链接
链接失效反馈
官方服务:
资源简介:
Notional-python数据集包含从Google Bigquery Github数据集中收集的100个知名仓库的Python代码文件,旨在测试编程语言模型的能力。数据集仅包含满足特定条件的Python代码文件,如代码中可执行行数超过60%,包含逻辑而非配置文件或仅注释文件,属性声明行数超过30%,且不包含`TODO`和`FIXME`标签。
提供机构:
notional
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 内容: Notional-python 数据集包含来自100个知名仓库的Python代码文件,这些文件从Google Bigquery Github数据集中筛选得到。
  • 目的: 用于测试编程语言模型的生成能力。

语言

  • 主要语言: Python

数据集创建

筛选理由

  • 目的: 构建一个用于测试机器生成Python代码能力的测试集。

源数据

  • 来源: 从Google Bigquery Github数据集筛选得到。
  • 筛选标准:
    • 代码中可执行行超过60%。
    • 包含逻辑代码,非配置文件或仅含注释的文件。
    • 属性声明行超过30%。
    • 不包含TODOFIXME标记。

使用数据集的考虑

数据集的社会影响

  • 描述: 未提供具体信息。

数据集的偏见

  • 描述: 未提供具体信息。

其他已知限制

  • 描述: 未提供具体信息。

附加信息

数据集管理员

  • 描述: 未提供具体信息。

许可信息

  • 描述: 未知。

引用信息

  • 描述: 未提供具体信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作