five

shareAI/ultra-chat_clean

收藏
Hugging Face2024-08-16 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/shareAI/ultra-chat_clean
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于ultrachat原始数据集(英文,多轮对话)进行清洗过滤得到的。清洗规则包括过滤安全对齐文本、身份认知信息、代码、数学、符号和网址等内容。数据集提供了两种清洗后的样本文件:ultra-chat_clean.jsonl和ultra-chat_clean_common.jsonl,并且可以转换为sharegpt格式的多轮对话数据集。

This dataset is a cleaned and filtered version of the original ultrachat dataset (English, multi-turn dialogue). It mainly removes content such as refusal to answer, apologies, identity recognition information, code, mathematics, URLs, and special symbols. The dataset is divided into two versions: ultra-chat_clean.jsonl removes refusal to answer, apologies, and identity recognition information; ultra-chat_clean_common.jsonl further removes code, mathematics, URLs, and special symbols. The dataset format is firefly, which can be converted to the sharegpt format using the provided scripts.
提供机构:
shareAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作