codeparrot/github-jupyter-text-code-pairs
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/github-jupyter-text-code-pairs
下载链接
链接失效反馈官方服务:
资源简介:
这是一个解析版本的[github-jupyter-parsed]数据集,包含Markdown和代码对。数据集经过去重处理,包含451662个示例。此外,还提到了一个类似的数据集CoNaLa,该数据集包含来自StackOverflow的文本和Python代码,并由注释者精心挑选了一些样本。
---
annotations_creators: []
language:
- 代码(code)
license:
- 其他(other)
multilinguality:
- 单语言(monolingual)
size_categories:
- 未知(unknown)
task_categories:
- 文本生成(text-generation)
task_ids:
- 语言建模(language-modeling)
pretty_name: github-jupyter-text-code-pairs
---
本数据集为[github-jupyter-parsed](https://huggingface.co/datasets/codeparrot/github-jupyter-parsed)的解析版本,包含标记语言(Markdown)与代码配对数据。我们在[preprocessing.py](https://huggingface.co/datasets/codeparrot/github-jupyter-parsed-v2/blob/main/preprocessing.py)中提供了预处理脚本。该数据集已完成去重,共包含451662条样本。
针对文本与Python代码配对的同类数据集,还有源自StackOverflow的[CoNaLa](https://huggingface.co/datasets/neulab/conala)基准数据集,其部分样本由标注人员精心整理。
提供机构:
codeparrot
原始信息汇总
数据集概述
基本信息
- 名称: github-jupyter-text-code-pairs
- 语言: 单一语言(代码)
- 许可证: 其他
- 多语言性: 单语
- 大小: 未知
任务相关
- 任务类别: 文本生成
- 具体任务: 语言建模
数据详情
- 数据组成: 包含Markdown和代码对
- 数据量: 451,662个示例
- 数据处理: 提供预处理脚本 preprocessing.py,数据已去重
相关数据集
- 类似数据集: CoNaLa,来自StackOverflow,包含由标注者精选的样本



