five

codeparrot/github-jupyter-parsed

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/github-jupyter-parsed
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从BigQuery中提取的Jupyter Notebooks数据集的解析和预处理版本,仅保留了markdown和python单元格,并将markdown转换为文本。此外,还应用了一些启发式方法来过滤数据量少、单元格过长或过短的笔记本。
提供机构:
codeparrot
原始信息汇总

GitHub Jupyter Dataset 概述

数据集描述

  • 来源:该数据集是从 BigQuery 上的 Jupyter Notebooks 提取并经过解析和预处理的版本。
  • 内容处理:数据集中仅保留了 Markdown 和 Python 单元格,并将 Markdown 内容转换为文本。
  • 过滤机制:应用了筛选机制,排除了数据量少、单元格过长或过短的笔记本。

数据集特性

  • 语言:主要包含代码。
  • 许可证:数据集中的每个示例根据其关联的仓库拥有不同的许可证,总计 15 种不同的许可证,包括 mit, apache-2.0, gpl-3.0 等。
  • 任务类别:主要用于文本生成和语言建模。

数据集结构

  • 语言创建方式:数据集的语言内容通过众包和专家生成两种方式创建。
  • 多语言性:单语种。
  • 大小分类:大小未知。
  • 源数据集:无。

许可证信息

  • 许可证类型:其他。
  • 多语言性:单语种。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作