PALR_inference2|推荐系统数据集
收藏数据集概述
数据集信息
- 特征:
- instruction: 数据类型为字符串。
- input: 包含以下子结构:
- candidates: 序列类型,数据类型为字符串。
- interaction: 序列类型,数据类型为字符串。
- preference: 数据类型为字符串。
- user_id: 数据类型为字符串。
- output: 包含以下子结构:
- recommended: 序列类型,数据类型为字符串。
数据集分割
- train_50_first:
- 字节数: 69154357
- 样本数: 11182
- train_50_second:
- 字节数: 69104573
- 样本数: 11181
数据集大小
- 下载大小: 22004299 字节
- 数据集大小: 138258930 字节
配置
- config_name: default
- 数据文件:
- train_50_first: 路径为
data/train_50_first-*
- train_50_second: 路径为
data/train_50_second-*
- train_50_first: 路径为
- 数据文件:

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
MNLI
MNLI(Multi-Genre Natural Language Inference)是一个大规模的自然语言推理数据集,包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力,包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系:蕴含(entailment)、矛盾(contradiction)和中性(neutral)。
cims.nyu.edu 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录