04RR/tiny-instruct
收藏Hugging Face2023-10-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/04RR/tiny-instruct
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从多个开源数据集中整理而来,并进行了去重处理。数据集包含约600万行数据,每行数据包含一个指令和对应的响应,属于单轮对话类型。数据集的具体来源包括代码数据集、数学数据集和通用数据集三类。
The tiny-instruct-v1 dataset is collated from multiple open-source datasets (de-duplicated), containing approximately 6 million rows, each with an instruction and corresponding response (single-turn conversation). The dataset is categorized into code, math, and general types, covering a variety of topics from programming to math problems.
提供机构:
04RR
原始信息汇总
tiny-instruct-v1 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 英语
- 数据规模: 1M<n<10M
- 别名: tiny-instruct
数据集描述
该数据集是从多个其他开源数据集(去重后)整理而成,总共有约600万行数据,每行包含一个指令和响应(单轮对话)。
包含的数据集
代码数据集
- CodeAlpaca_20K
- CodeExercise-Python-27k
- Evol-Instruct-Code-80k-v1
- tiny-codes
- Evol-instruction-66k
- sciphi-python-textbook
- programming_books_llama
- WizardLM_evol_instruct_70k
数学数据集
- MetaMathQA
- arxiv-math-instruct-50k
- MathInstruct
通用数据集
- OpenOrca
- claude_evol_instruct_210k



