five

anon8231489123/ShareGPT_Vicuna_unfiltered

收藏
Hugging Face2023-04-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于ShareGPT对话,经过筛选后保留了约53k条英文对话。清理过程包括移除非英文对话、过多的Unicode字符、重复字符以及包含特定道德化短语的对话。数据集提供了两个版本:一个移除了包含Im sorry, but的对话,另一个保留了这些对话。数据集已准备好用于训练未经过滤的Vicuna模型。

This dataset is sourced from ShareGPT conversations, with approximately 53k English dialogues retained after screening. The cleaning process includes removing non-English dialogues, excessive Unicode characters, duplicate characters, and dialogues containing specific moralizing phrases. The dataset provides two variants: one that removes dialogues containing the phrase "Im sorry, but", and the other that retains such dialogues. The dataset is ready for training unfiltered Vicuna models.
提供机构:
anon8231489123
原始信息汇总

数据集概述

数据集名称

  • ShareGPT_Vicuna_unfiltered

数据集版本

  • ShareGPT_V3_unfiltered_cleaned_split

数据集处理

  • 数据集经过进一步清洗,移除了非英语对话、过多的Unicode字符、重复字符以及包含特定道德化表述的对话。
  • 对话被分割成2048个token的片段。

数据集内容

  • 原始约100,000条对话精简至53,000条。
  • 移除了多种包含特定道德化表述的对话,如“AI Moralizing”等。

数据集使用

  • 提供两个版本的数据集,一个移除了“Im sorry, but”的实例,另一个保留了这些实例。
  • 建议在训练模型前仔细考虑数据集的选择,以确保数据质量和适用性。

许可证

  • Apache-2.0

语言

  • 英语
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含约53k条经过严格清洗的英文ShareGPT对话,移除了非英语内容、重复字符和道德说教内容,适用于训练无过滤的Vicuna模型。数据集提供两个版本,一个完全移除道歉语句,另一个保留,便于用户根据需求选择使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作