five

Intel/neural-chat-dataset-v2

收藏
Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Intel/neural-chat-dataset-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于神经聊天模型微调的综合数据集,包含约1.5M样本和5M令牌,涵盖多种语言和类型的数据,如英语、中文等。数据集由Hello-SimpleAI、databricks、TigerResearch和Open-Orca等组织提供,并已通过NeuralChat团队在多个大型语言模型上验证。

该数据集是一个用于神经聊天模型微调的综合数据集,包含约1.5M样本和5M令牌,涵盖多种语言和类型的数据,如英语、中文等。数据集由Hello-SimpleAI、databricks、TigerResearch和Open-Orca等组织提供,并已通过NeuralChat团队在多个大型语言模型上验证。
提供机构:
Intel
原始信息汇总

数据集概述

本数据集是一个用于神经聊天微调的指令数据集集合,总共包含约150万个样本和500万个令牌。

数据集详情

类型 语言 数据集名称 样本数量
HC3 英文 HC3 24K
dolly 英文 databricks-dolly-15k 15K
alpaca-zh 中文 tigerbot-alpaca-zh-0.5m 500K
alpaca-en 英文 TigerResearch/tigerbot-alpaca-en-50k 50K
math 英文 tigerbot-gsm-8k-en 8K
general 英文 tigerbot-stackexchange-qa-en-0.5m 500K
OpenOrca 英文 Open-Orca/OpenOrca 400K (采样)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作