codeparrot/github-jupyter-parsed
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/github-jupyter-parsed
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从BigQuery中提取的Jupyter Notebooks数据集的解析和预处理版本,仅保留了markdown和python单元格,并将markdown转换为文本。此外,还应用了一些启发式方法来过滤数据量少、单元格过长或过短的笔记本。
提供机构:
codeparrot
原始信息汇总
GitHub Jupyter Dataset 概述
数据集描述
- 来源:该数据集是从 BigQuery 上的 Jupyter Notebooks 提取并经过解析和预处理的版本。
- 内容处理:数据集中仅保留了 Markdown 和 Python 单元格,并将 Markdown 内容转换为文本。
- 过滤机制:应用了筛选机制,排除了数据量少、单元格过长或过短的笔记本。
数据集特性
- 语言:主要包含代码。
- 许可证:数据集中的每个示例根据其关联的仓库拥有不同的许可证,总计 15 种不同的许可证,包括 mit, apache-2.0, gpl-3.0 等。
- 任务类别:主要用于文本生成和语言建模。
数据集结构
- 语言创建方式:数据集的语言内容通过众包和专家生成两种方式创建。
- 多语言性:单语种。
- 大小分类:大小未知。
- 源数据集:无。
许可证信息
- 许可证类型:其他。
- 多语言性:单语种。



