notional/notional-python
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/notional/notional-python
下载链接
链接失效反馈官方服务:
资源简介:
Notional-python数据集包含从Google Bigquery Github数据集中收集的100个知名仓库的Python代码文件,旨在测试编程语言模型的能力。数据集仅包含满足特定条件的Python代码文件,如代码中可执行行数超过60%,包含逻辑而非配置文件或仅注释文件,属性声明行数超过30%,且不包含`TODO`和`FIXME`标签。
提供机构:
notional
原始信息汇总
数据集概述
数据集描述
数据集总结
- 内容: Notional-python 数据集包含来自100个知名仓库的Python代码文件,这些文件从Google Bigquery Github数据集中筛选得到。
- 目的: 用于测试编程语言模型的生成能力。
语言
- 主要语言: Python
数据集创建
筛选理由
- 目的: 构建一个用于测试机器生成Python代码能力的测试集。
源数据
- 来源: 从Google Bigquery Github数据集筛选得到。
- 筛选标准:
- 代码中可执行行超过60%。
- 包含逻辑代码,非配置文件或仅含注释的文件。
- 属性声明行超过30%。
- 不包含
TODO和FIXME标记。
使用数据集的考虑
数据集的社会影响
- 描述: 未提供具体信息。
数据集的偏见
- 描述: 未提供具体信息。
其他已知限制
- 描述: 未提供具体信息。
附加信息
数据集管理员
- 描述: 未提供具体信息。
许可信息
- 描述: 未知。
引用信息
- 描述: 未提供具体信息。



