five

bigcode/starcoder2data-extras

收藏
Hugging Face2025-03-19 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/starcoder2data-extras
下载链接
链接失效反馈
官方服务:
资源简介:
StarCoder2额外数据集,包含用于训练StarCoder2系列模型的多种编程语言和相关文档数据。子集包括Kaggle笔记本文档、StackOverflow对话、处理过的GitHub问题、Open-Web-Math数据集、高质量代码文件集合、英语维基百科子集、ArXiv论文的LaTeX源文件、不同编程语言的中间表示形式以及流行库的文档。

StarCoder2Extras dataset, containing various programming languages and related documentation data for training the StarCoder2 family of models. Subsets include Kaggle notebook documents, StackOverflow conversations, processed GitHub issues, Open-Web-Math dataset, high-quality code file collections, English Wikipedia subset, LaTeX source files from ArXiv papers, intermediate representations of different programming languages, and documentation of popular libraries.
提供机构:
bigcode
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作