five

04RR/tiny-instruct

收藏
Hugging Face2023-10-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/04RR/tiny-instruct
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从多个开源数据集中整理而来,并进行了去重处理。数据集包含约600万行数据,每行数据包含一个指令和对应的响应,属于单轮对话类型。数据集的具体来源包括代码数据集、数学数据集和通用数据集三类。

The tiny-instruct-v1 dataset is collated from multiple open-source datasets (de-duplicated), containing approximately 6 million rows, each with an instruction and corresponding response (single-turn conversation). The dataset is categorized into code, math, and general types, covering a variety of topics from programming to math problems.
提供机构:
04RR
原始信息汇总

tiny-instruct-v1 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 英语
  • 数据规模: 1M<n<10M
  • 别名: tiny-instruct

数据集描述

该数据集是从多个其他开源数据集(去重后)整理而成,总共有约600万行数据,每行包含一个指令和响应(单轮对话)。

包含的数据集

代码数据集

  1. CodeAlpaca_20K
  2. CodeExercise-Python-27k
  3. Evol-Instruct-Code-80k-v1
  4. tiny-codes
  5. Evol-instruction-66k
  6. sciphi-python-textbook
  7. programming_books_llama
  8. WizardLM_evol_instruct_70k

数学数据集

  1. MetaMathQA
  2. arxiv-math-instruct-50k
  3. MathInstruct

通用数据集

  1. OpenOrca
  2. claude_evol_instruct_210k
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作