linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集
收藏数据集概述
数据集名称: Baize Chat Data
语言: 英语(en)
标签: 指令微调(instruction-finetuning)
任务类别: 文本生成(text-generation)
原始仓库链接: Baize Chat Data原始仓库
数据集用途: 用于训练Baize系列模型的训练数据,特别是用于大型语言模型(LLMs)的指令微调,以“聊天”格式进行。
数据结构: 数据集包含人类和AI的消息,分别通过[|Human|]和[|AI|]标签标记。
数据组成: 原始数据来自四个不同的数据集(alpaca, medical, quora, stackoverflow),合并后总共有约210,000行数据。

Paper III (Walker et al. 2024)
Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.
DataCite Commons 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
🌧️ Digital Typhoon Dataset WP (GIFs| 57GB)
🌧️ Digital Typhoon Dataset Western Pacific (Animated GIFs)
kaggle 收录
Spambase
Spambase数据集是一个垃圾邮件数据集,包含57个属性和4601个实例。该数据集主要用于垃圾邮件的识别和分类。垃圾邮件的资源都来自邮件管理员和提交垃圾邮件的个人。可用于构建垃圾邮件过滤器。 该数据集由惠普实验室在1999年7月发布,马克·霍普金斯、埃里克·里伯、乔治·福尔曼和雅普·苏蒙德为主要贡献者。
OpenDataLab 收录
IR-500K
IR-500K是一个大型红外数据集,包含500,000张红外图像,涵盖了各种场景和物体在不同环境条件下的图像。
github 收录
