Recipe Dataset|食谱数据数据集|自然语言处理数据集
收藏数据集概述
数据集介绍
本数据集提供了多种菜肴的食谱,包括原始数据和适合ChatGPT使用的分解版本。每个条目包含食谱名称、包含食材和步骤的原始数据,以及为ChatGPT分解的JSON格式数据。分解数据包括名称、URL(如有)、食材、步骤和附加说明。
使用场景
该数据集适用于训练和测试自然语言处理模型,特别是涉及食谱分析、总结或理解的模型。此外,还可用于通过各种微调方法(如LoRA、QLoRA、RAG等)对大型语言模型进行微调。
数据集可用于以下任务:
- 食谱总结:根据原始数据或分解的JSON生成食谱的简洁摘要。
- 聊天机器人训练:训练聊天机器人理解和响应与烹饪或特定食谱相关的用户查询。
- 结构化数据处理:利用分解的JSON数据训练模型,从非结构化文本中提取结构化信息。
- 食谱推荐系统:开发基于用户偏好或饮食限制推荐食谱的系统。
- 提供新食谱:基于历史数据微调大型语言模型以生成新食谱。
数据字段
- 食谱标题
- 原始数据
- ChatGPT分解数据
数据集大小
共有164个条目。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
btc
该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。
huggingface 收录