CHASM-Covert_Advertisement_on_RedNote
收藏Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/Jingyi77/CHASM-Covert_Advertisement_on_RedNote
下载链接
链接失效反馈官方服务:
资源简介:
CHASM(RedNote上的隐蔽广告)数据集是一个包含RedNote帖子的文本和图像分类数据集,专注于识别隐蔽的广告。该数据集包括被标记为广告(标签=1)和非广告(标签=0)的样本。
创建时间:
2025-05-14
原始信息汇总
RedNote Covert Advertisement Detection Dataset 概述
数据集基本信息
- 语言: 中文
- 许可证: MIT
- 标签:
- 隐蔽广告检测
- 社交媒体
- 图文多模态
- RedNote
- 小红书
数据集结构
- 配置名称: default
- 数据文件:
test.parquet: 测试集train.parquet: 训练集validation.parquet: 验证集
数据规模
- 规模分类: 1K<n<10K
- 总量统计:
- 总帖子数: 4992
- 广告帖子: 613
- 非广告帖子: 4379
- 总图片数: 26324
- 总帖子数: 4992
数据分割详情
| 分割类型 | 帖子数 | 广告帖子数 | 非广告帖子数 | 图片总数 |
|---|---|---|---|---|
| 训练集 | 3493 | 426 | 3067 | 18543 |
| 验证集 | 499 | 57 | 442 | 2678 |
| 测试集 | 1000 | 130 | 870 | 5103 |
字段描述
id: 帖子唯一标识符title: 帖子标题description: 帖子描述内容date: 发布日期 (格式: MM-DD)comments: 评论列表images: base64编码的图片列表image_count: 图片数量label: 标签 (0=非广告, 1=广告)split: 数据分割类型 (train/validation/test)
数据集特点
- 多模态数据: 包含文本(标题、描述、评论)和图片
- 真实数据: 来自RedNote平台的实际社交媒体帖子
- 多图片支持: 每个帖子平均包含5.27张图片
引用信息
bibtex @dataset{CHASM, author = {Jingyi Zheng, Tianyi Hu, Yule Liu, Zhen Sun, Zongmin Zhang, Wenhan Dong, Zifan Peng}, title = {CHASM: Unveiling Covert Advertisements on Chinese Social Media}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {https://huggingface.co/datasets/Jingyi77/CHASM-Covert_Advertisement_on_RedNote} }
搜集汇总
数据集介绍

构建方式
在社交媒体隐蔽广告检测领域,CHASM数据集通过系统化采集RedNote平台真实用户帖子构建而成。研究团队采用多模态数据采集策略,从4992个帖子中提取文本标题、描述、评论及关联图像,并由专业人员标注广告与非广告内容。数据集按7:1:2比例划分为训练集、验证集和测试集,确保模型开发各阶段的评估需求。数据存储采用WebDataset格式,每个样本包含图像文件与结构化元数据,完整保留原始社交媒体的多模态特性。
特点
该数据集显著特点在于其真实场景下的多模态复杂性,平均每个帖子包含5.27张图像与丰富文本信息,精准模拟社交媒体隐蔽广告的传播形态。26324张图像与对应文本的有机结合,为检测模型提供视觉-语言关联特征的学习基础。数据分布方面,广告样本占比12.3%,符合实际平台中隐蔽广告的低频出现规律,这种非平衡分布能有效验证模型的鲁棒性。所有样本均通过人工标注确保质量,且保留原始发布时间、用户互动等社交上下文信息。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,使用标准接口获取训练、验证、测试三个子集。每个样本以字典形式返回,包含图像路径列表和结构化元数据,支持端到端的多模态模型训练。图像数据需配合PIL或OpenCV等库进行处理,文本字段可直接用于自然语言处理模块。数据集内置的标签体系允许开发者快速构建二分类任务,同时开放的评论和时间字段为细粒度分析提供可能。典型应用场景包括联合视觉-语言模型训练、隐蔽广告传播模式分析等跨模态研究。
背景与挑战
背景概述
随着社交媒体的蓬勃发展,隐蔽广告作为一种新型营销手段在RedNote等平台逐渐泛滥,严重影响了用户体验和平台生态。由Jingyi Zheng等学者于2025年构建的CHASM数据集,旨在通过多模态数据分析揭示中文社交平台上的隐蔽广告行为。该数据集收录了4992条真实社交帖子,包含26324张图片及配套文本信息,通过人工标注构建了广告与非广告内容的分类体系。作为首个专注于中文社交平台隐蔽广告检测的公开数据集,CHASM为计算广告学、社交媒体分析等领域提供了重要的基准数据,推动了多模态内容理解技术的发展。
当前挑战
隐蔽广告检测面临双重技术挑战:在领域问题层面,广告内容与普通用户生成内容的界限模糊,尤其当推广信息融入生活分享时,传统文本分类模型难以捕捉其隐含商业意图;多模态特征融合的复杂性使得模型需要同时处理图像美学特征、文本语义及跨模态关联。在构建过程中,数据采集需平衡用户隐私与科研需求,标注工作涉及商业意图的细粒度判断,标注者间一致性控制成为关键难题。此外,平台内容动态更新特性要求数据集持续迭代以保持时效性,这些因素共同构成了隐蔽广告检测研究的核心挑战。
常用场景
经典使用场景
在社交媒体内容分析领域,CHASM数据集为研究者提供了识别隐蔽广告的基准测试平台。该数据集通过整合小红书平台的多模态帖子数据,包括文本描述、用户评论及关联图像,构建了典型的隐蔽广告检测场景。研究者可利用其丰富的标注信息,开发算法区分正常内容与植入式营销,尤其适用于分析中国本土社交媒体的独特传播模式。
衍生相关工作
基于该数据集已衍生出多项创新研究,包括基于图神经网络的跨模态关联分析、结合注意力机制的双流检测框架等。部分工作进一步扩展了数据集应用边界,如开发对抗样本生成方法测试模型鲁棒性,或构建细粒度分类体系区分不同类型的隐蔽广告策略。
数据集最近研究
最新研究方向
随着社交媒体的蓬勃发展,隐蔽广告检测已成为数字营销与内容监管领域的重要课题。CHASM数据集作为针对小红书平台的多模态隐蔽广告检测基准,近期研究主要聚焦于跨模态特征融合与弱监督学习框架的创新。研究者们正探索如何通过深度学习模型有效整合图像与文本特征,以识别更具隐蔽性的植入式广告。该领域与欧盟《数字服务法案》等国际监管趋势相呼应,在保护消费者权益的同时,也为社交平台内容治理提供了技术支撑。数据集中丰富的多模态样本为迁移学习在跨平台广告检测中的应用提供了可能,相关成果已逐步应用于电商反作弊系统和内容审核实践中。
以上内容由遇见数据集搜集并总结生成



