AIML-TUDA/socio-moral-image-rationales|图像识别数据集|道德评估数据集
收藏Socio-Moral Image Rationales
数据集概述
- 名称: Socio-Moral Image Rationales
- 内容: 包含机器生成的和人工标注的图像不道德内容的解释。
- 图像来源: 来自Socio-Moral Image Database (SMID),仅限于道德平均分(SMID moral mean)小于等于2.0的图像。
- 解释生成: 使用ILLUME范式,由视觉-语言模型生成,该范式在ILLUME: Rationalizing Vision-Language Models through Human Interactions中提出。
- 人工评分: 解释由人工标注者评分,评分范围1-4,其中1为最佳。评分标准如下:
- 优秀
- 充分/满意
- 弱(但方向正确)
- 差/无关
数据集结构
- 文件包含字段:
- smid_image_id: 图像在SMID数据集中的标识符。
- smid_moral_mean: 来自SMID的道德平均分,范围1-5,分数越低表示越不道德。
- rationale: 图像不道德性的生成解释。
- human_rating: 根据上述评分系统的人工评分。
- fitting_rationale: 是否为合适的解释,即评分小于等于2。
数据集分割
- 数据预先分为训练集和测试集。
引用信息
bibtex @inproceedings{brack2023illume, title={ILLUME: Rationalizing Vision-Language Models through Human Interactions}, author={Manuel Brack and Patrick Schramowski and Björn Deiserath and Kristian Kersting}, year={2023}, booktitle={Proceedings of the 40th International Conference on Machine Learning (ICML)} }
ERIC (Education Resources Information Center)
ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。
eric.ed.gov 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录