five

linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集

收藏
hugging_face2023-07-20 更新2024-03-04 收录
聊天机器人
文本生成
下载链接:
https://hf-mirror.com/datasets/linkanjarad/baize-chat-data
下载链接
链接失效反馈
资源简介:
Baize Chat Data是一个用于指令微调大型语言模型的数据集,特别适用于聊天格式。数据集包含人类和AI消息,分别用[|Human|]和[|AI|]标签标记。该数据集整合了来自原始仓库的四个子数据集(alpaca, medical, quora, stackoverflow),总计约210K行。
提供机构:
linkanjarad
原始信息汇总

数据集概述

数据集名称: Baize Chat Data

语言: 英语(en)

标签: 指令微调(instruction-finetuning)

任务类别: 文本生成(text-generation)

原始仓库链接: Baize Chat Data原始仓库

数据集用途: 用于训练Baize系列模型的训练数据,特别是用于大型语言模型(LLMs)的指令微调,以“聊天”格式进行。

数据结构: 数据集包含人类和AI的消息,分别通过[|Human|][|AI|]标签标记。

数据组成: 原始数据来自四个不同的数据集(alpaca, medical, quora, stackoverflow),合并后总共有约210,000行数据。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。

国家海洋科学数据中心 收录