Intel/neural-chat-dataset-v2
收藏Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Intel/neural-chat-dataset-v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于神经聊天模型微调的综合数据集,包含约1.5M样本和5M令牌,涵盖多种语言和类型的数据,如英语、中文等。数据集由Hello-SimpleAI、databricks、TigerResearch和Open-Orca等组织提供,并已通过NeuralChat团队在多个大型语言模型上验证。
该数据集是一个用于神经聊天模型微调的综合数据集,包含约1.5M样本和5M令牌,涵盖多种语言和类型的数据,如英语、中文等。数据集由Hello-SimpleAI、databricks、TigerResearch和Open-Orca等组织提供,并已通过NeuralChat团队在多个大型语言模型上验证。
提供机构:
Intel
原始信息汇总
数据集概述
本数据集是一个用于神经聊天微调的指令数据集集合,总共包含约150万个样本和500万个令牌。
数据集详情
| 类型 | 语言 | 数据集名称 | 样本数量 |
|---|---|---|---|
| HC3 | 英文 | HC3 | 24K |
| dolly | 英文 | databricks-dolly-15k | 15K |
| alpaca-zh | 中文 | tigerbot-alpaca-zh-0.5m | 500K |
| alpaca-en | 英文 | TigerResearch/tigerbot-alpaca-en-50k | 50K |
| math | 英文 | tigerbot-gsm-8k-en | 8K |
| general | 英文 | tigerbot-stackexchange-qa-en-0.5m | 500K |
| OpenOrca | 英文 | Open-Orca/OpenOrca | 400K (采样) |



