five

ShareChat

收藏
paratranz.cn2023-04-01 更新2025-02-10 收录
下载链接:
https://paratranz.cn/projects/6725
下载链接
链接失效反馈
官方服务:
资源简介:
ShareChat数据集包含大约9万条指令,这些指令均来源于ShareGPT上的对话数据。在语言分布方面,其中6.8万条指令为英语,1.1万条为中文,其余为其他语言。该数据集的目标是将所有其他语言的指令翻译成中文,以丰富中文指令的资源。所有数据都经过了人工检查和验证。

The ShareChat dataset comprises approximately 90,000 instruction samples, all sourced from conversational data on ShareGPT. In terms of language distribution, 68,000 of these instructions are in English, 11,000 in Chinese, and the remaining ones are in other languages. The core goal of this dataset is to translate all instructions in non-Chinese languages into Chinese, so as to enrich the resources of Chinese instructional data. All data has undergone manual inspection and verification.
提供机构:
Sharechat
创建时间:
2023-04-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ShareChat数据集是一个多语言ChatGPT对话语料库,包含约9万条对话(以英文和中文为主),旨在通过清洗和翻译构建高质量中文AI训练数据,以促进国内AI发展。该数据集强调'优质、可读、无毒'的特点,最终将并入Multilingual Share GPT语料库,并采用CC0协议开放共享。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作