anon8231489123/ShareGPT_Vicuna_unfiltered
收藏Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于ShareGPT对话,经过筛选后保留了约53k条英文对话。清理过程包括移除非英文对话、过多的Unicode字符、重复字符以及包含特定道德化短语的对话。数据集提供了两个版本:一个移除了包含Im sorry, but的对话,另一个保留了这些对话。数据集已准备好用于训练未经过滤的Vicuna模型。
This dataset is sourced from ShareGPT conversations, with approximately 53k English dialogues retained after screening. The cleaning process includes removing non-English dialogues, excessive Unicode characters, duplicate characters, and dialogues containing specific moralizing phrases. The dataset provides two variants: one that removes dialogues containing the phrase "Im sorry, but", and the other that retains such dialogues. The dataset is ready for training unfiltered Vicuna models.
提供机构:
anon8231489123
原始信息汇总
数据集概述
数据集名称
- ShareGPT_Vicuna_unfiltered
数据集版本
- ShareGPT_V3_unfiltered_cleaned_split
数据集处理
- 数据集经过进一步清洗,移除了非英语对话、过多的Unicode字符、重复字符以及包含特定道德化表述的对话。
- 对话被分割成2048个token的片段。
数据集内容
- 原始约100,000条对话精简至53,000条。
- 移除了多种包含特定道德化表述的对话,如“AI Moralizing”等。
数据集使用
- 提供两个版本的数据集,一个移除了“Im sorry, but”的实例,另一个保留了这些实例。
- 建议在训练模型前仔细考虑数据集的选择,以确保数据质量和适用性。
许可证
- Apache-2.0
语言
- 英语
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含约53k条经过严格清洗的英文ShareGPT对话,移除了非英语内容、重复字符和道德说教内容,适用于训练无过滤的Vicuna模型。数据集提供两个版本,一个完全移除道歉语句,另一个保留,便于用户根据需求选择使用。
以上内容由遇见数据集搜集并总结生成



