five

NickIBrody/ruby-code-corpus

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/NickIBrody/ruby-code-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
一个大型的Ruby源代码语料库,收集自GitHub上的公共仓库。包含294,074个文件,来自3,920多个Ruby仓库,这些仓库按星标数量排名(作为质量信号)。数据集经过了过滤,移除了小于200字节的文件(琐碎/空文件),并且只包含宽松许可证(MIT、Apache-2.0、BSD、ISC、Ruby)。文件类型分布为约95%的.rb文件,约37%的测试文件(spec/test,有意保留,对训练有用),约58%的生产代码。数据集字段包括来源、仓库、仓库URL、文件路径、语言、许可证、星标数量、分支名称、文件大小和原始源代码内容。

A large corpus of Ruby source code collected from public GitHub repositories. Contains 294,074 files from 3,920+ Ruby repositories on GitHub, sourced from repos ranked by star count (quality signal). Filtered to remove files under 200 bytes (trivial/empty files) and only includes permissive licenses: MIT, Apache-2.0, BSD, ISC, Ruby. File composition is approximately 95% .rb files, ~37% test files (spec/test — kept intentionally, useful for training), and ~58% production code. Dataset fields include source, repo, repo_url, path, language, license, stars, ref, size_bytes, and raw source content.
提供机构:
NickIBrody
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作