five

lorinma/Slim-COIG-Kun

收藏
Hugging Face2024-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/Slim-COIG-Kun
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个中文问答数据集的精简版,原始数据集包含53万条数据,本版本通过使用bert-base-chinese模型将指令转换为嵌入,并采用类似knn的方法抽取了1万条数据。此外,还有一个仅包含1千条数据的版本,用于可视化分析。数据集的目的是为了展示不同数据集之间的语义多样性差异。

这是一个中文问答数据集的精简版,原始数据集包含53万条数据,本版本通过使用bert-base-chinese模型将指令转换为嵌入,并采用类似knn的方法抽取了1万条数据。此外,还有一个仅包含1千条数据的版本,用于可视化分析。数据集的目的是为了展示不同数据集之间的语义多样性差异。
提供机构:
lorinma
原始信息汇总

数据集概述

许可证

  • MIT许可证

任务类别

  • 问答(Question Answering)

语言

  • 中文

数据集版本

数据采样

  • 原始数据集包含53万条数据,进行了子采样。
  • 采样方法:使用bert-base-chinese将指令转换为嵌入向量,采用类似KNN的方法抽取了1万条数据,并转换为sharegpt格式。
  • 提供了一个仅采样了1千条数据的版本,采样前后的嵌入向量使用t-SNE进行可视化。

可视化分析

  • 原始Kun(蓝色)和Moss003(红色)的区别,表明虽然Kun的数量很高,但首个指令的语义多样性可能不如Moss。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作