dhuck/functional_code
收藏Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dhuck/functional_code
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个功能编程语言的代码示例集合,主要用于代码生成任务。数据集在2023年3月的一周内从GitHub收集,作为程序合成项目的一部分。数据集包含了多种功能编程语言的代码,如Haskell、Clojure、Lisp等。每个代码示例都包含了源文件的完整文本,并进行了清理以去除个人敏感信息。数据集的创建过程中,特别注意了去除个人敏感信息,并使用了Spacy NER来识别和替换评论中的个人名称。此外,数据集可能包含偏见和限制,如代码质量不一和可能的语言误标问题。
该数据集是一个功能编程语言的代码示例集合,主要用于代码生成任务。数据集在2023年3月的一周内从GitHub收集,作为程序合成项目的一部分。数据集包含了多种功能编程语言的代码,如Haskell、Clojure、Lisp等。每个代码示例都包含了源文件的完整文本,并进行了清理以去除个人敏感信息。数据集的创建过程中,特别注意了去除个人敏感信息,并使用了Spacy NER来识别和替换评论中的个人名称。此外,数据集可能包含偏见和限制,如代码质量不一和可能的语言误标问题。
提供机构:
dhuck
原始信息汇总
数据集概述
数据集描述
- 名称: Functional Code
- 类别: 文本生成、特征提取
- 标签: 程序合成、代码
- 描述: 该数据集收集了来自GitHub的功能性编程语言代码示例,用于代码生成任务。数据集于2023年3月的一周内收集,作为程序合成项目的一部分。
数据集结构
数据实例
json { id: str, repository: str, filename: str, license: str or Empty, language: str, content: str }
数据字段
- id: 内容的SHA256哈希值,用于确保通过分支或其他复制方式移除重复的代码示例。
- repository: 文件来源的仓库,用于归属或检查代码示例的许可更新问题。
- filename: 仓库内代码示例的文件名。
- license: 仓库的许可信息,可能为空,需要进一步解析单个文件的许可信息。
- language: 文件的编程语言,如Haskell、Clojure、Lisp等。
- content: 文件的源代码,包含一些清理操作,长度从短到长不等,可能需要预处理以适应最终任务。
数据分割
- 训练集: 628,869个示例
- 测试集: 157,218个示例
- 分割方法: 使用
scikit-learn的test_train_split函数创建。
数据集创建
采集与规范化
- 采集方法: 从GitHub的公共仓库中收集,通过搜索目标语言的常见文件扩展名进行。
- 数据清理: 移除了个人信息,如电子邮件地址和网站,使用Spacy NER识别并替换评论中的名称。
源数据生产者
- 来源: 每个示例包含其原始仓库信息,以识别代码来源。
使用数据集的考虑
社会影响
- 待补充
偏见讨论
- 潜在问题: 代码中可能存在编程者使用的不当词汇作为变量名,以及评论中可能包含的仇恨言论。
- 建议: 模型可能需要额外的毒性训练以消除这些倾向。
其他已知限制
- 代码质量: 未对代码质量进行检查,可能存在无法编译或运行的示例。
- 语言准确性: 由于GitHub搜索依赖文件扩展名而非内容,某些示例可能并非所声明的语言。



