Seriki/Kubu-hai

Name: Seriki/Kubu-hai
Creator: Seriki
Published: 2026-04-26 06:27:13
License: 暂无描述

Hugging Face2026-04-26 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Seriki/Kubu-hai

下载链接

链接失效反馈

官方服务：

资源简介：

kubu-hai是一个高质量的数据集，包含10,000条由熟练人类标注者创建的指令和演示，用于监督微调（SFT）以改进语言模型的指令遵循能力。该数据集模仿了OpenAI的InstructGPT论文中的指令数据集，主要包括单轮指令，覆盖多个类别，包括生成（4560条）、开放问答（1240条）、头脑风暴（1120条）、聊天（850条）、重写（660条）、总结（420条）、编码（350条）、分类（350条）、封闭问答（260条）和提取（190条）。数据为英语（BCP-47 en），可用于指令微调预训练语言模型，并建议在MT-Bench和AlpacaEval等基准上进行评估。

kubu-hai is a high-quality dataset of 10,000 instructions and demonstrations created by skilled human annotators. This data can be used for supervised fine-tuning (SFT) to make language models follow instructions better. It was modelled after the instruction dataset described in OpenAIs InstructGPT paper, and is comprised mostly of single-turn instructions across categories such as Generation (4560), Open QA (1240), Brainstorm (1120), Chat (850), Rewrite (660), Summarize (420), Coding (350), Classify (350), Closed QA (260), and Extract (190). The data are in English (BCP-47 en) and designed for instruction fine-tuning pretrained language models, with recommended benchmarking against MT-Bench and AlpacaEval.

提供机构：

Seriki

5,000+

优质数据集

54 个

任务类型

进入经典数据集