GenImage|AI图像检测数据集|偏见消除数据集
收藏Unbiased GenImage 数据集概述
1. 数据集下载
- 用户需先下载原始的GenImage数据集及额外的元数据CSV文件,该CSV文件包含关于图像的jpeg QF、大小和内容信息。
- 提供了一个约500GB的下载链接,包含GenImage数据集和元数据CSV文件。
- 推荐使用Google Drive下载GenImage数据集,仅从数据verse下载metadata.csv文件。
2. 移除偏见
- 通过训练代码中的get_data.py和get_transform.py,用户可以选择特定大小范围或内容类别的图像子集来创建Unbiased GenImage数据集。
- 使用jpeg_augment.py对jpeg QG进行对齐。
3. 代码详情
- 提供用于训练和验证ResNet50和Swin-T检测器的代码。
- 代码修改了原始GenImage数据集,以适应实验需求,包括使用get_data.py选择正确的数据和get_transform.py进行JPEG压缩等转换。
4. 结果
- 展示了在受限数据集上训练ResNet50和Swin-T的跨生成器性能及与原始数据集训练的差异。
- 结果显示,通过减少偏见,可以显著提高跨生成器性能和鲁棒性,达到最先进的结果。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
中国100m人口密度数据集(2000-2020年)
本数据集为中国100m人口密度数据集,数据来源于WorldPop平台,该数据集为UN-adjusted 且 Constrained 版本。 数据集按照年份共计包含21个tif栅格数据,worldpop-year-merged.tif。
国家地球系统科学数据中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录