five

dhuck/functional_code

收藏
Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dhuck/functional_code
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个功能编程语言的代码示例集合,主要用于代码生成任务。数据集在2023年3月的一周内从GitHub收集,作为程序合成项目的一部分。数据集包含了多种功能编程语言的代码,如Haskell、Clojure、Lisp等。每个代码示例都包含了源文件的完整文本,并进行了清理以去除个人敏感信息。数据集的创建过程中,特别注意了去除个人敏感信息,并使用了Spacy NER来识别和替换评论中的个人名称。此外,数据集可能包含偏见和限制,如代码质量不一和可能的语言误标问题。

该数据集是一个功能编程语言的代码示例集合,主要用于代码生成任务。数据集在2023年3月的一周内从GitHub收集,作为程序合成项目的一部分。数据集包含了多种功能编程语言的代码,如Haskell、Clojure、Lisp等。每个代码示例都包含了源文件的完整文本,并进行了清理以去除个人敏感信息。数据集的创建过程中,特别注意了去除个人敏感信息,并使用了Spacy NER来识别和替换评论中的个人名称。此外,数据集可能包含偏见和限制,如代码质量不一和可能的语言误标问题。
提供机构:
dhuck
原始信息汇总

数据集概述

数据集描述

  • 名称: Functional Code
  • 类别: 文本生成、特征提取
  • 标签: 程序合成、代码
  • 描述: 该数据集收集了来自GitHub的功能性编程语言代码示例,用于代码生成任务。数据集于2023年3月的一周内收集,作为程序合成项目的一部分。

数据集结构

数据实例

json { id: str, repository: str, filename: str, license: str or Empty, language: str, content: str }

数据字段

  • id: 内容的SHA256哈希值,用于确保通过分支或其他复制方式移除重复的代码示例。
  • repository: 文件来源的仓库,用于归属或检查代码示例的许可更新问题。
  • filename: 仓库内代码示例的文件名。
  • license: 仓库的许可信息,可能为空,需要进一步解析单个文件的许可信息。
  • language: 文件的编程语言,如Haskell、Clojure、Lisp等。
  • content: 文件的源代码,包含一些清理操作,长度从短到长不等,可能需要预处理以适应最终任务。

数据分割

  • 训练集: 628,869个示例
  • 测试集: 157,218个示例
  • 分割方法: 使用scikit-learntest_train_split函数创建。

数据集创建

采集与规范化

  • 采集方法: 从GitHub的公共仓库中收集,通过搜索目标语言的常见文件扩展名进行。
  • 数据清理: 移除了个人信息,如电子邮件地址和网站,使用Spacy NER识别并替换评论中的名称。

源数据生产者

  • 来源: 每个示例包含其原始仓库信息,以识别代码来源。

使用数据集的考虑

社会影响

  • 待补充

偏见讨论

  • 潜在问题: 代码中可能存在编程者使用的不当词汇作为变量名,以及评论中可能包含的仇恨言论。
  • 建议: 模型可能需要额外的毒性训练以消除这些倾向。

其他已知限制

  • 代码质量: 未对代码质量进行检查,可能存在无法编译或运行的示例。
  • 语言准确性: 由于GitHub搜索依赖文件扩展名而非内容,某些示例可能并非所声明的语言。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作