lorinma/Slim-COIG-Kun
收藏Hugging Face2024-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/Slim-COIG-Kun
下载链接
链接失效反馈官方服务:
资源简介:
这是一个中文问答数据集的精简版,原始数据集包含53万条数据,本版本通过使用bert-base-chinese模型将指令转换为嵌入,并采用类似knn的方法抽取了1万条数据。此外,还有一个仅包含1千条数据的版本,用于可视化分析。数据集的目的是为了展示不同数据集之间的语义多样性差异。
这是一个中文问答数据集的精简版,原始数据集包含53万条数据,本版本通过使用bert-base-chinese模型将指令转换为嵌入,并采用类似knn的方法抽取了1万条数据。此外,还有一个仅包含1千条数据的版本,用于可视化分析。数据集的目的是为了展示不同数据集之间的语义多样性差异。
提供机构:
lorinma
原始信息汇总
数据集概述
许可证
- MIT许可证
任务类别
- 问答(Question Answering)
语言
- 中文
数据集版本
- 这是COIG-Kun的精简版本。
数据采样
- 原始数据集包含53万条数据,进行了子采样。
- 采样方法:使用bert-base-chinese将指令转换为嵌入向量,采用类似KNN的方法抽取了1万条数据,并转换为sharegpt格式。
- 提供了一个仅采样了1千条数据的版本,采样前后的嵌入向量使用t-SNE进行可视化。
可视化分析
- 原始Kun(蓝色)和Moss003(红色)的区别,表明虽然Kun的数量很高,但首个指令的语义多样性可能不如Moss。



