lorinma/Slim-Wildchat-zh
收藏Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/Slim-Wildchat-zh
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从WildChat中抽取的中文对话数据,经过去重处理后生成了多个子集。去重方法使用了bert-base-chinese模型将问题转换为embedding,并采用类knn的方法进行采样。数据集中包含NSFW内容,未进行过滤。数据集包含三个jsonl文件,分别用于不同的任务和采样方法。
该数据集是从WildChat中抽取的中文对话数据,经过去重处理后生成了多个子集。去重方法使用了bert-base-chinese模型将问题转换为embedding,并采用类knn的方法进行采样。数据集中包含NSFW内容,未进行过滤。数据集包含三个jsonl文件,分别用于不同的任务和采样方法。
提供机构:
lorinma
原始信息汇总
数据集概述
语言
- 中文
任务类别
- 对话
- 文本生成
数据规模
- 10K<n<100K
数据处理
- 从WildChat中抽取中文对话,并进行了简单的去重。
- 去重方法:使用bert-base-chinese将第一个问题转换为embedding,采用类knn的方法抽取了1万条对话。
- 数据格式转换为sharegpt格式。
注意事项
- 对话中包含NSFW内容,未进行过滤。
文件列表
wildchat-seed-multi-200.json:基于每个Dialogue的首个HumanQuestion采样的200个种子任务,用于EvolInsturction。Subsample_10K.jsonl:原始版本,基于每个Dialogue的首个HumanQuestion采样的1万个对话。1213_Wildchat_zh_Sharegpt_ConcatSubsample_20k.jsonl:更新版本,基于每个Dialogue的所有HumanQuestion连接起来采样的2万个对话。



