five

kunishou/amenokaku-code-instruct

收藏
Hugging Face2024-04-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kunishou/amenokaku-code-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
Amenokaku-Code-Instruct是一个包含5.2K指令数据的代码专用数据集,涵盖了代码生成、代码行为检查和代码修复等任务。数据集来源于多个编程学习资源,部分内容经过自动翻译和手动修正。数据集采用混合许可证,部分数据需要特定许可证。

Amenokaku-Code-Instruct is a code-specific dataset containing 5.2K instruction data samples, covering tasks such as code generation, code behavior checking, and code repair. The dataset is sourced from multiple programming learning resources, and partial content has undergone automatic translation and manual correction. The dataset adopts a mixed license, and certain portions of the data require specific licenses.
提供机构:
kunishou
原始信息汇总

Amenokaku-Code-Instruct 数据集概述

概要

  • 这是一个专注于代码的5.2K指令数据集。
  • 数据集中的数据来自商业可用的编程学习内容,经过收集、加工和翻译(英文内容自动翻译为日文,并手动修正翻译不自然的部分)。
  • 对于未明确标注许可证的学习内容,已单独联系权利人并获得本数据集的发布许可。

数据集详细信息

数据集包含以下类型的任务:

  • 代码生成(code_generation):1050条记录
  • 代码行为检查(check_code_behavior):150条记录
  • 代码修复(code_fix):4000条记录

详细来源和记录数如下:

来源名称 记录数 许可证 URL
数据科学100本ノック(结构化数据加工编)(Python解答) 100 MIT https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
数据科学100本ノック(结构化数据加工编)(SQL解答) 100 MIT https://github.com/rootassist/100knocks-preprocess-inSQLandPython-withColab
图像处理100本ノック 100 MIT https://github.com/ryoppippi/Gasyori100knock
语言处理100本ノック2020 100 MIT (问题) https://github.com/nlp100/nlp100.github.io<br>(解答) https://github.com/upura/nlp100v2020
Python初学者のためのpandas100本ノック※ 100 AmenokakuCode License https://qiita.com/kunishou/items/bd5fad9a334f4f5be51c
Python初学者のためのPolars100本ノック※ 100 AmenokakuCode License https://qiita.com/kunishou/items/1386d14a136f585e504e
100 Numpy Exercises 100 MIT https://github.com/rougier/numpy-100
100 Julia Exercises 100 The Unlicense https://github.com/RoyiAvital/Julia100Exercises
自作Python100本ノック 100 AmenokakuCode License https://qiita.com/ahpjop/items/373f807d68044cda1c9b
Python-for-Beginners-Solve-50-Exercises-Live 50 MIT https://github.com/garg10may/Python-for-Beginners-Solve-50-Exercises-Live
R初学者のためのtidyverse100本ノック 100 AmenokakuCode License https://qiita.com/nekobo/items/cbf32a13637273f229da
JavaScript Questions 155 MIT https://github.com/lydiahallie/javascript-questions
Break-It-Fix-It 4,000 MIT https://github.com/michiyasunaga/BIFI
JaxTon 60 Apache-2.0 https://github.com/vopani/jaxton
プロになるJava 120 AmenokakuCode License https://nowokay.hatenablog.com/entry/projava17exercise2

许可证

数据集遵循各数据源的许可证,因此是混合许可证。对于未明确标注许可证的数据,已获得权利人的许可,并使用AmenokakuCode License。该许可证允许在语言模型学习用途下自由使用数据,但不允许销售或分发数据。

数据集更新

数据集将持续更新,添加更多商业可用的编程学习内容。欢迎提供有益的内容或自创的学习内容。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作