array/socratis_image_text_emotion|情感分析数据集|多模态数据数据集
收藏SOCRATIS 数据集概述
数据集描述
SOCRATIS 是一个包含多样性开放式情感反应的基准数据集,针对图像-标题对。该数据集包含 18,000 个多样性的情感及其原因,基于 2,000 个图像-标题对。
数据格式
数据集文件 test.json
包含测试数据,格式如下:
json
{
"unique_id": [[image_path, caption, emotions, explanations, anonymized_demographics], ...]
}
unique_id
:图像-标题对的唯一标识符。- 每个
unique_id
键对应一个列表,包含来自不同工作者的多个条目。 - 每个条目包括情感及其解释,以及可能缺失的匿名化人口统计信息(可选且匿名)。
数据文件
图像文件存储在以下链接中:https://drive.google.com/file/d/1J8SiUEfKqc5rfxE1nwZUrG1Hcz7Djc3G/view?usp=sharing
初步发现
- 人类更偏好人类编写的情感反应,而非机器生成的情感反应,偏好比例超过两倍。
- 当前的评估指标未能与人类偏好相关联,表明存在大量研究空间。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
De-Solar Dataset
De-Solar Dataset是一个基于无人机的高质量数据集,用于支持太阳能光伏系统中的障碍物定位和性能评估。它包含超过3,500张手动标记的图像,拍摄高度在15到50英尺之间,每张图像都标注了常见表面障碍物的多边形掩码,如树枝、泥土、树叶、鸟粪和纸张。除了图像数据外,数据集还包括时间戳对齐的电压读数与环境元数据,能够详细分析特定障碍物如何影响面板性能。数据集位于De-Solar Dataset文件夹中,并分为以下组件:Voltage_Data/(包含图像路径、电压读数和环境变量的Excel文件)、Original/(包括原始无人机图像、对应的标注JSON文件和分割掩码)、Cropped_Folder/(包含从原始图像中提取的太阳能电池板的裁剪图像,用于模型训练)、Ground_Folder/(包含数据集中的地面图像)、SolarPV/(包含Solarformer++的数据集)。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录