crumb/Clean-Instruct-440k

Name: crumb/Clean-Instruct-440k
Creator: crumb
Published: 2023-04-28 21:20:34
License: 暂无描述

Hugging Face2023-04-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/crumb/Clean-Instruct-440k

下载链接

链接失效反馈

官方服务：

资源简介：

数据集Clean-Instruct由多个数据集合并而成，包含443k高质量半清理的指令，且不包含As an Ai language model的文本。该数据集用于对话任务，语言为英语。

提供机构：

crumb

原始信息汇总

数据集概述

数据集信息

特征:
- instruction: 类型为字符串
- output: 类型为字符串
- input: 类型为字符串
分割:
- train: 包含650842125.0字节，443612个样本
下载大小: 357775511字节
数据集大小: 650842125.0字节
许可证: MIT
任务类别: 对话
语言: 英语

数据集描述

该数据集包含443k高质量的半清洗指令，不包含"As an AI language model"字样。

数据加载示例

python from datasets import load_dataset dataset = load_dataset("crumb/clean-instruct", split="train") def promptify(example): if example[input]!=: return {"text": f"<instruction> {example[instruction]} <input> {example[input]} <output> {example[output]}"} return {"text": f"<instruction> {example[instruction]} <output> {example[output]}"} dataset = dataset.map(promptify, batched=False) dataset = dataset.remove_columns(["instruction", "input", "output"])

5,000+

优质数据集

54 个

任务类型

进入经典数据集