botp/shareAI_ShareGPT-Chinese-English-90k
收藏Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/botp/shareAI_ShareGPT-Chinese-English-90k
下载链接
链接失效反馈官方服务:
资源简介:
ShareGPT-Chinese-English-90k是一个中英文平行双语的人机问答数据集,覆盖了真实复杂场景下的用户提问,用于训练高质量的对话模型。该数据集提供中英文平行对照语料,所有问题均非人为臆想或通过API轮询拟造的假数据,更加符合真实用户场景的指令分布和提问表达。数据集由网友自发分享收集,经过天然过滤筛除了大部分体验不好的对话。数据收集于chatGPT还未表现出明显智力退化的时间点,可能由于官方替换模型或引入更多拒绝答复导致模型连接知识逻辑的程度退化。
提供机构:
botp
原始信息汇总
ShareGPT-Chinese-English-90k 中英文双语人机问答数据集
概述
中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型。
特点
- 双语对照:同时提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。
- 真实性:所有问题均非人为臆想加上api轮询拟造的假数据,更加符合真实用户场景的指令分布和提问表达。
- 天然过滤:sharegpt数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤(通过人类感觉),筛除了大部分体验不好的对话。
补充信息
该数据收集于chatGPT还未表现出明显智力退化的时间点。
搜集汇总
背景与挑战
背景概述
ShareGPT-Chinese-English-90k是一个中英文平行双语的人机问答数据集,旨在训练高质量的对话模型,其数据源自真实用户场景的提问,非人为臆造,确保了指令分布和表达的真实性。数据集由网友自发分享收集,经过天然过滤优化对话质量,且收集于chatGPT未明显智力退化的时期,可能反映了早期模型的知识逻辑水平。
以上内容由遇见数据集搜集并总结生成



