anon8231489123/ShareGPT_Vicuna_unfiltered

Name: anon8231489123/ShareGPT_Vicuna_unfiltered
Creator: anon8231489123
Published: 2023-04-12 05:23:59
License: 暂无描述

Hugging Face2023-04-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于ShareGPT对话，经过筛选后保留了约53k条英文对话。清理过程包括移除非英文对话、过多的Unicode字符、重复字符以及包含特定道德化短语的对话。数据集提供了两个版本：一个移除了包含Im sorry, but的对话，另一个保留了这些对话。数据集已准备好用于训练未经过滤的Vicuna模型。

This dataset is sourced from ShareGPT conversations, with approximately 53k English dialogues retained after screening. The cleaning process includes removing non-English dialogues, excessive Unicode characters, duplicate characters, and dialogues containing specific moralizing phrases. The dataset provides two variants: one that removes dialogues containing the phrase "Im sorry, but", and the other that retains such dialogues. The dataset is ready for training unfiltered Vicuna models.

提供机构：

anon8231489123

原始信息汇总

数据集概述

数据集名称

ShareGPT_Vicuna_unfiltered

数据集版本

ShareGPT_V3_unfiltered_cleaned_split

数据集处理

数据集经过进一步清洗，移除了非英语对话、过多的Unicode字符、重复字符以及包含特定道德化表述的对话。
对话被分割成2048个token的片段。

数据集内容

原始约100,000条对话精简至53,000条。
移除了多种包含特定道德化表述的对话，如“AI Moralizing”等。

数据集使用

提供两个版本的数据集，一个移除了“Im sorry, but”的实例，另一个保留了这些实例。
建议在训练模型前仔细考虑数据集的选择，以确保数据质量和适用性。

许可证

Apache-2.0

语言

英语

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集包含约53k条经过严格清洗的英文ShareGPT对话，移除了非英语内容、重复字符和道德说教内容，适用于训练无过滤的Vicuna模型。数据集提供两个版本，一个完全移除道歉语句，另一个保留，便于用户根据需求选择使用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集