ShareChat
收藏paratranz.cn2023-04-01 更新2025-02-10 收录
下载链接:
https://paratranz.cn/projects/6725
下载链接
链接失效反馈官方服务:
资源简介:
ShareChat数据集包含大约9万条指令,这些指令均来源于ShareGPT上的对话数据。在语言分布方面,其中6.8万条指令为英语,1.1万条为中文,其余为其他语言。该数据集的目标是将所有其他语言的指令翻译成中文,以丰富中文指令的资源。所有数据都经过了人工检查和验证。
The ShareChat dataset comprises approximately 90,000 instruction samples, all sourced from conversational data on ShareGPT. In terms of language distribution, 68,000 of these instructions are in English, 11,000 in Chinese, and the remaining ones are in other languages. The core goal of this dataset is to translate all instructions in non-Chinese languages into Chinese, so as to enrich the resources of Chinese instructional data. All data has undergone manual inspection and verification.
提供机构:
Sharechat
创建时间:
2023-04-01
搜集汇总
数据集介绍

背景与挑战
背景概述
ShareChat数据集是一个多语言ChatGPT对话语料库,包含约9万条对话(以英文和中文为主),旨在通过清洗和翻译构建高质量中文AI训练数据,以促进国内AI发展。该数据集强调'优质、可读、无毒'的特点,最终将并入Multilingual Share GPT语料库,并采用CC0协议开放共享。
以上内容由遇见数据集搜集并总结生成



