five

个人敏感信息识别系统的数据集

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=67d50f24195d260905af9a77&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集用于个人敏感信息识别系统的功能和性能测试;该数据集包含52个场景,涵盖15种类别,5种模态,总计5720万个人信息数据。其中,5种模态数据分别包括个人诚信声明文档、用户身份照片、用户视频数据和用户图形数据,用户的个人数据不涉及个人隐私,均采用模拟数据的方式进行成成,用户信息均进行脱敏操作,其中视频涉及个人信息的内容进行了删减。数据集主目录下中共包含group1-10和multimodal, multimodal文件中包含audio_file、identity_cards、statements_docx、svg_files;statements_docx中包含500个DOCX格式文件;identity_cards中包含500个JPG格式文件;audio_files中包含500个WAV格式文件;svg_files中包含500个SVG格式文件。数据集一共12.5GB,未压缩,满足数据集提交数据量的要求。
提供机构:
中国科学院信息工程研究所
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集专为个人敏感信息识别系统的功能与性能测试设计,涵盖52个场景、15种类别和5种模态,包括文档、照片、视频等多种格式,总计5720万条经过脱敏处理的模拟个人信息数据。数据集总大小为12.5GB,未压缩,满足相关数据量要求。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务