five

HuggingFaceTB/issues-kaggle-notebooks

收藏
Hugging Face2025-03-19 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceTB/issues-kaggle-notebooks
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Issues & Kaggle Notebooks数据集是两个代码数据集的集合,分别来源于GitHub问题讨论和Kaggle平台上的分析笔记本。这些数据集是StarCoder2模型训练语料库中的一部分,经过修改去除了特殊令牌,并使用自然文本标示问题和Kaggle笔记本中的评论和代码块。GitHub Issues数据集包含来自GH Archive的问题讨论,而Kaggle Notebooks数据集则包含来自Meta Kaggle Code的数据分析笔记本。这些数据集经过过滤,去除了低质量内容、重复项和个人身份信息。

GitHub Issues & Kaggle Notebooks is a collection of two code datasets sourced from GitHub issues and notebooks on the Kaggle platform. These datasets are a modified part of the StarCoder2 model training corpus, with special tokens removed and natural text used to delimit comments in issues and code blocks in Kaggle notebooks. The GitHub Issues dataset includes discussions from GH Archive, while the Kaggle Notebooks dataset is derived from the Meta Kaggle Code dataset. Both datasets have been filtered to remove low-quality content, duplicates, and personally identifiable information.
提供机构:
HuggingFaceTB
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作