five

the-stack-dedup

收藏
huggingface.co2025-03-22 收录
下载链接:
https://huggingface.co/datasets/bigcode/the-stack-dedup
下载链接
链接失效反馈
官方服务:
资源简介:
Dataset Card for The Stack Changelog Release Description v1.0 Initial release of the Stack. Included 30 programming languages and 18 permissive licenses. Note: Three included licenses (MPL/EPL/LGPL) are considered weak copyleft licenses. The resulting near-deduplicated dataset is 1.5TB in size. v1.1 The three copyleft licenses ((MPL/EPL/LGPL) were excluded and the list of permissive licenses extended to 193 licenses in total. The list of programming… See the full description on the dataset page: https://huggingface.co/datasets/bigcode/the-stack-dedup.

数据集卡片——The Stack 版本变更日志 发布 描述 v1.0 The Stack 的初始发布版本。包含 30 种编程语言和 18 项宽松许可协议。请注意:其中包含的三项许可协议(MPL/EPL/LGPL)被视为弱版权保留许可协议。经近去重处理后的数据集大小为 1.5TB。 v1.1 排除了三项版权保留许可协议(MPL/EPL/LGPL),并将宽松许可协议的列表扩展至总计 193 项。编程语言列表的详细信息请参阅数据集页面:https://huggingface.co/datasets/bigcode/the-stack-dedup。
提供机构:
BigCode
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作