Locutusque/inst_mix_v2_top_100k
收藏Hugging Face2023-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Locutusque/inst_mix_v2_top_100k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Locutusque/InstructMix-V2数据集中采样并清理得到的,原始数据集规模较大。通过采样123,590个示例,并移除OpenAI拒绝的条目,最终得到106,149个清理后的示例。数据集适用于文本生成、对话和问答任务,语言为英语,规模在10万到100万之间。
This dataset is a deep-cleaned version of Locutusque/InstructMix-V2, containing 106,149 cleaned examples after sampling and removing refusal content. It is suitable for text generation, conversational, and question-answering tasks, with the language being English and the size between 100K and 1M.
提供机构:
Locutusque
原始信息汇总
数据集概述
任务类别
- 文本生成
- 对话
- 问答
语言
- 英语
数据集大小
- 100K < n < 1M
数据处理
- 从原始数据集 Locutusque/InstructMix-V2 中采样了 123,590 个示例。
- 移除了 OpenAI 拒绝的内容,参考了 refusals 列表。
- 最终数据集包含 106,149 个清洗后的示例。



