five

中文高质量大模型多轮对话SFT数据集|多轮对话数据集|指令微调数据集

收藏
OpenDataLab2024-05-30 收录
多轮对话
指令微调
下载链接:
https://opendatalab.com/MagicHub/LLM-SFT-Dataset
下载链接
链接失效反馈
资源简介:
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
提供机构:
晴数智慧
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

LendingClub Loan Data

Loan & Rejects (2007 to 2019Q3)

kaggle 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

jojogo9/freshness

该数据集包含图像及其对应的标签,标签分为6类:腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集,训练集包含10908个样本,测试集包含2705个样本。数据文件存储在指定的路径下。

hugging_face 收录

Pew Research Center Surveys

Pew Research Center Surveys 包含多个社会科学领域的调查数据,涵盖政治、社会、科技、宗教等多个主题。这些调查数据通常用于分析公众意见、态度和行为。

www.pewresearch.org 收录