kunishou/amenokaku-code-instruct
收藏Hugging Face2024-04-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kunishou/amenokaku-code-instruct
下载链接
链接失效反馈官方服务:
资源简介:
Amenokaku-Code-Instruct是一个包含5.2K指令数据的代码专用数据集,涵盖了代码生成、代码行为检查和代码修复等任务。数据集来源于多个编程学习资源,部分内容经过自动翻译和手动修正。数据集采用混合许可证,部分数据需要特定许可证。
Amenokaku-Code-Instruct is a code-specific dataset containing 5.2K instruction data samples, covering tasks such as code generation, code behavior checking, and code repair. The dataset is sourced from multiple programming learning resources, and partial content has undergone automatic translation and manual correction. The dataset adopts a mixed license, and certain portions of the data require specific licenses.
提供机构:
kunishou
原始信息汇总
Amenokaku-Code-Instruct 数据集概述
概要
- 这是一个专注于代码的5.2K指令数据集。
- 数据集中的数据来自商业可用的编程学习内容,经过收集、加工和翻译(英文内容自动翻译为日文,并手动修正翻译不自然的部分)。
- 对于未明确标注许可证的学习内容,已单独联系权利人并获得本数据集的发布许可。
数据集详细信息
数据集包含以下类型的任务:
- 代码生成(code_generation):1050条记录
- 代码行为检查(check_code_behavior):150条记录
- 代码修复(code_fix):4000条记录
详细来源和记录数如下:
| 来源名称 | 记录数 | 许可证 | URL |
|---|---|---|---|
| 数据科学100本ノック(结构化数据加工编)(Python解答) | 100 | MIT | https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess |
| 数据科学100本ノック(结构化数据加工编)(SQL解答) | 100 | MIT | https://github.com/rootassist/100knocks-preprocess-inSQLandPython-withColab |
| 图像处理100本ノック | 100 | MIT | https://github.com/ryoppippi/Gasyori100knock |
| 语言处理100本ノック2020 | 100 | MIT | (问题) https://github.com/nlp100/nlp100.github.io<br>(解答) https://github.com/upura/nlp100v2020 |
| Python初学者のためのpandas100本ノック※ | 100 | AmenokakuCode License | https://qiita.com/kunishou/items/bd5fad9a334f4f5be51c |
| Python初学者のためのPolars100本ノック※ | 100 | AmenokakuCode License | https://qiita.com/kunishou/items/1386d14a136f585e504e |
| 100 Numpy Exercises | 100 | MIT | https://github.com/rougier/numpy-100 |
| 100 Julia Exercises | 100 | The Unlicense | https://github.com/RoyiAvital/Julia100Exercises |
| 自作Python100本ノック | 100 | AmenokakuCode License | https://qiita.com/ahpjop/items/373f807d68044cda1c9b |
| Python-for-Beginners-Solve-50-Exercises-Live | 50 | MIT | https://github.com/garg10may/Python-for-Beginners-Solve-50-Exercises-Live |
| R初学者のためのtidyverse100本ノック | 100 | AmenokakuCode License | https://qiita.com/nekobo/items/cbf32a13637273f229da |
| JavaScript Questions | 155 | MIT | https://github.com/lydiahallie/javascript-questions |
| Break-It-Fix-It | 4,000 | MIT | https://github.com/michiyasunaga/BIFI |
| JaxTon | 60 | Apache-2.0 | https://github.com/vopani/jaxton |
| プロになるJava | 120 | AmenokakuCode License | https://nowokay.hatenablog.com/entry/projava17exercise2 |
许可证
数据集遵循各数据源的许可证,因此是混合许可证。对于未明确标注许可证的数据,已获得权利人的许可,并使用AmenokakuCode License。该许可证允许在语言模型学习用途下自由使用数据,但不允许销售或分发数据。
数据集更新
数据集将持续更新,添加更多商业可用的编程学习内容。欢迎提供有益的内容或自创的学习内容。



