five

CSA-Graphs

收藏
arXiv2026-04-08 更新2026-04-10 收录
下载链接:
https://github.com/araceli-project/CSA-Graphs
下载链接
链接失效反馈
官方服务:
资源简介:
CSA-Graphs是由坎皮纳斯州立大学等机构联合开发的隐私保护结构数据集,基于巴西联邦警察维护的RCPD数据集生成。该数据集包含1630条数据,其中837条为CSAI数据,793条为非CSAI数据,通过场景图和人体骨架图两种模态保留上下文信息,同时避免直接暴露敏感视觉内容。数据集生成过程涉及从原始图像中提取对象关系(场景图)和人体姿态关键点(骨架图),旨在为计算机视觉领域的研究者提供合法的研究工具,推动儿童安全相关的敏感内容分类技术发展,解决CSAI数据难以公开共享导致的科研瓶颈问题。

CSA-Graphs is a privacy-preserving structured dataset co-developed by institutions including the University of Campinas and other partner organizations, derived from the RCPD dataset maintained by the Federal Police of Brazil. This dataset comprises 1630 total entries, with 837 corresponding to CSAI data and 793 to non-CSAI data. It preserves contextual information via two modalities—scene graphs and human skeleton graphs—while preventing the direct disclosure of sensitive visual content. The dataset generation workflow involves extracting object relationships (scene graphs) and human pose keypoints (skeleton graphs) from raw images. Its core objectives are to provide legitimate research resources for computer vision researchers, advance the development of sensitive content classification technologies for child safety applications, and resolve the research bottleneck arising from the limited public availability of CSAI data.
提供机构:
坎皮纳斯州立大学; 米纳斯吉拉斯联邦教育、科学与技术学院; 圣保罗大学; 米纳斯吉拉斯联邦大学; 联邦警察; 谢菲尔德大学
创建时间:
2026-04-08
原始信息汇总

CSA-Graphs 数据集概述

数据集名称

CSA-Graphs

核心描述

一个用于儿童性虐待研究的隐私保护结构数据集。

背景与来源

该数据集关联一篇提交至CVPR 2026的论文,具体为“计算机视觉与儿童”研讨会(CV4CHL)。

搜集汇总
数据集介绍
main_image_url
构建方式
在儿童性虐待材料研究领域,数据获取面临严格的法律与伦理限制。CSA-Graphs数据集通过创新的隐私保护方法构建,其源数据来自巴西联邦警察维护的RCPD数据集。研究团队采用先进的计算视觉技术,将原始图像转化为两种互补的图结构表示:场景图通过Pix2Grp框架提取物体及其关系三元组,骨骼图则利用YOLO26姿态估计模型捕捉人体关键点拓扑结构。这种构建方式在完全剥离像素内容的同时,保留了场景的上下文关系与人体姿态信息,为敏感内容分析提供了合法的数据基础。
使用方法
研究人员可利用该数据集开展儿童性虐待材料的分类与模式识别研究。典型的使用流程包括:首先分别加载场景图与骨骼图的结构化数据,然后采用图神经网络(如GAT)对每种模态进行特征学习与表示提取。实验表明,通过注意力机制融合两种模态的图级嵌入、分类逻辑值与后验概率,能够构建性能更优的元分类器。数据集支持五折交叉验证协议,并以召回率作为核心评估指标,确保在敏感内容检测中最大限度地减少漏报风险。这种使用方法使得研究者能够在完全符合法律规范的前提下,推进儿童安全领域的计算视觉算法创新。
背景与挑战
背景概述
儿童性虐待影像(CSAI)的自动识别是计算机视觉领域一项至关重要且极具挑战性的任务,其发展长期受制于相关材料的法律与伦理限制,导致公开数据集极度匮乏,严重阻碍了研究的可复现性与方法进步。为应对这一困境,由巴西坎皮纳斯州立大学、圣保罗大学及巴西联邦警察等多机构研究人员组成的团队于2026年推出了CSA-Graphs数据集。该数据集旨在通过提供隐私保护的结构化表征,而非原始图像,来支持CSAI分类研究。其核心创新在于从执法机构持有的RCPD基准数据集中,提取并公开了两种互补的图结构表示:描述场景中物体关系的场景图,以及编码人体姿态的骨架图。这一举措在严格遵守法律边界的前提下,为学术界研究儿童安全相关的计算机视觉方法开辟了新路径,显著降低了研究门槛并促进了该领域的协作与发展。
当前挑战
CSA-Graphs数据集致力于解决儿童性虐待影像自动分类这一核心领域问题,其面临的首要挑战在于如何在无法公开原始有害内容的情况下,构建出仍能有效支撑模型训练与评估的数据表征。这要求表征必须充分保留对分类任务至关重要的上下文与交互线索,同时彻底剥离任何可识别或可还原的视觉内容。在数据集构建过程中,研究团队遭遇了多重具体挑战:其一,从敏感图像中生成高质量的结构化表征(如场景图和骨架图)本身存在技术难度,需确保生成过程的可靠性以及所得表征的信息保真度;其二,原始数据(RCPD)的访问受到严格的法律协议限制,所有处理必须在执法机构的安全基础设施内远程完成,这为数据提取、验证与迭代带来了巨大的操作复杂性;其三,需精心设计表征的语义空间,避免引入与虐待内容直接相关的敏感词汇,以防止潜在的信息泄露或滥用风险。
常用场景
经典使用场景
在儿童性虐待内容(CSAI)的计算机视觉检测研究中,数据获取面临严峻的法律与伦理壁垒。CSA-Graphs数据集通过提供场景图与人体骨骼姿态图这两种结构化的隐私保护表征,为这一敏感领域的研究开辟了全新路径。其最经典的使用场景在于训练和评估基于图神经网络的分类模型,例如图注意力网络(GAT),以区分CSAI与非敏感图像。研究者无需接触原始非法图像,仅利用抽象的物体关系与人体姿态信息,即可开发并验证自动化检测算法,在严格遵守法律约束的前提下推动技术进展。
解决学术问题
该数据集核心解决了儿童安全研究领域长期存在的关键学术难题:如何在保障法律合规与伦理安全的前提下,实现研究数据的可重复获取与科学验证。传统基于原始CSAI图像的研究因数据无法公开而严重阻碍了成果比较与方法迭代。CSA-Graphs通过去身份化的结构表征,既移除了敏感的视觉内容,又保留了场景上下文与人体交互的关键模式信息。这使得大规模、可复现的模型训练与基准测试成为可能,从根本上改善了该领域研究方法论的严谨性与可积累性,为构建稳健、可解释的检测系统奠定了数据基础。
实际应用
在实际应用层面,CSA-Graphs数据集的结构化表征可直接服务于执法机构与在线内容审核平台的自动化系统开发。基于场景图与骨骼图的模型能够分析图像中物体间的语义关系以及人体的姿态与互动,这些高阶上下文线索对于识别新颖的、未收录于哈希数据库的虐待内容至关重要。此类技术可集成至数字取证工具或平台审核流水线中,作为现有哈希匹配技术的有效补充,辅助调查人员在海量数据中快速定位潜在违规内容,提升对网络有害材料的治理效率与覆盖范围,同时确保处理过程符合隐私保护法规。
数据集最近研究
最新研究方向
在儿童性虐待内容(CSAI)检测领域,严格的法律与伦理限制使得原始图像数据无法公开共享,严重阻碍了计算机视觉方法的可复现性与研究进展。CSA-Graphs数据集的提出,标志着该领域前沿研究正转向隐私保护的结构化表征学习。该数据集通过提取场景图与人体骨骼姿态图两种互补的图结构,在完全剥离敏感视觉内容的同时,保留了关键的上下文关系与人体交互信息,为CSA检测提供了既符合法律约束又可公开访问的研究基准。当前研究热点集中于探索多模态图神经网络的融合机制,利用图注意力网络(GAT)等模型,联合分析场景中的物体关系与人体姿态特征,以提升分类性能并增强模型的可解释性。这一方向不仅推动了敏感内容检测技术在保护隐私的前提下走向可协作、可比较的科学发展路径,也为儿童安全领域的跨机构合作与算法治理提供了重要的基础设施。
相关研究论文
  • 1
    CSA-Graphs: A Privacy-Preserving Structural Dataset for Child Sexual Abuse Research坎皮纳斯州立大学; 米纳斯吉拉斯联邦教育、科学与技术学院; 圣保罗大学; 米纳斯吉拉斯联邦大学; 联邦警察; 谢菲尔德大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作