cic-ids-2017|网络入侵检测数据集|文本分类数据集
收藏
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
rag-datasets/rag-mini-bioasq
该数据集主要用于问答和句子相似性任务,涉及生物医学领域。数据集包含两个配置:text-corpus和question-answer-passages,分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集,并通过`generate.py`脚本生成了子集。
hugging_face 收录
Sleep
该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。
github 收录
OECD - Education at a Glance
该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。
www.oecd.org 收录
EmoBench-M
EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集,旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论,包含13个评估场景,涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据,为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。
arXiv 收录