CHASM-Covert_Advertisement_on_RedNote

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/Jingyi77/CHASM-Covert_Advertisement_on_RedNote

下载链接

链接失效反馈

官方服务：

资源简介：

CHASM（RedNote上的隐蔽广告）数据集是一个包含RedNote帖子的文本和图像分类数据集，专注于识别隐蔽的广告。该数据集包括被标记为广告（标签=1）和非广告（标签=0）的样本。

创建时间：

2025-05-14

原始信息汇总

RedNote Covert Advertisement Detection Dataset 概述

数据集基本信息

语言: 中文
许可证: MIT
标签:
- 隐蔽广告检测
- 社交媒体
- 图文多模态
- RedNote
- 小红书

数据集结构

配置名称: default
数据文件:
- test.parquet: 测试集
- train.parquet: 训练集
- validation.parquet: 验证集

数据规模

规模分类: 1K<n<10K
总量统计:
- 总帖子数: 4992
  - 广告帖子: 613
  - 非广告帖子: 4379
- 总图片数: 26324

数据分割详情

分割类型	帖子数	广告帖子数	非广告帖子数	图片总数
训练集	3493	426	3067	18543
验证集	499	57	442	2678
测试集	1000	130	870	5103

字段描述

id: 帖子唯一标识符
title: 帖子标题
description: 帖子描述内容
date: 发布日期 (格式: MM-DD)
comments: 评论列表
images: base64编码的图片列表
image_count: 图片数量
label: 标签 (0=非广告, 1=广告)
split: 数据分割类型 (train/validation/test)

数据集特点

多模态数据: 包含文本(标题、描述、评论)和图片
真实数据: 来自RedNote平台的实际社交媒体帖子
多图片支持: 每个帖子平均包含5.27张图片

引用信息

bibtex @dataset{CHASM, author = {Jingyi Zheng, Tianyi Hu, Yule Liu, Zhen Sun, Zongmin Zhang, Wenhan Dong, Zifan Peng}, title = {CHASM: Unveiling Covert Advertisements on Chinese Social Media}, year = {2025}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {https://huggingface.co/datasets/Jingyi77/CHASM-Covert_Advertisement_on_RedNote} }

搜集汇总

数据集介绍

构建方式

在社交媒体隐蔽广告检测领域，CHASM数据集通过系统化采集RedNote平台真实用户帖子构建而成。研究团队采用多模态数据采集策略，从4992个帖子中提取文本标题、描述、评论及关联图像，并由专业人员标注广告与非广告内容。数据集按7:1:2比例划分为训练集、验证集和测试集，确保模型开发各阶段的评估需求。数据存储采用WebDataset格式，每个样本包含图像文件与结构化元数据，完整保留原始社交媒体的多模态特性。

特点

该数据集显著特点在于其真实场景下的多模态复杂性，平均每个帖子包含5.27张图像与丰富文本信息，精准模拟社交媒体隐蔽广告的传播形态。26324张图像与对应文本的有机结合，为检测模型提供视觉-语言关联特征的学习基础。数据分布方面，广告样本占比12.3%，符合实际平台中隐蔽广告的低频出现规律，这种非平衡分布能有效验证模型的鲁棒性。所有样本均通过人工标注确保质量，且保留原始发布时间、用户互动等社交上下文信息。

使用方法

研究者可通过Hugging Face数据集库直接加载该资源，使用标准接口获取训练、验证、测试三个子集。每个样本以字典形式返回，包含图像路径列表和结构化元数据，支持端到端的多模态模型训练。图像数据需配合PIL或OpenCV等库进行处理，文本字段可直接用于自然语言处理模块。数据集内置的标签体系允许开发者快速构建二分类任务，同时开放的评论和时间字段为细粒度分析提供可能。典型应用场景包括联合视觉-语言模型训练、隐蔽广告传播模式分析等跨模态研究。

背景与挑战

背景概述

随着社交媒体的蓬勃发展，隐蔽广告作为一种新型营销手段在RedNote等平台逐渐泛滥，严重影响了用户体验和平台生态。由Jingyi Zheng等学者于2025年构建的CHASM数据集，旨在通过多模态数据分析揭示中文社交平台上的隐蔽广告行为。该数据集收录了4992条真实社交帖子，包含26324张图片及配套文本信息，通过人工标注构建了广告与非广告内容的分类体系。作为首个专注于中文社交平台隐蔽广告检测的公开数据集，CHASM为计算广告学、社交媒体分析等领域提供了重要的基准数据，推动了多模态内容理解技术的发展。

当前挑战

隐蔽广告检测面临双重技术挑战：在领域问题层面，广告内容与普通用户生成内容的界限模糊，尤其当推广信息融入生活分享时，传统文本分类模型难以捕捉其隐含商业意图；多模态特征融合的复杂性使得模型需要同时处理图像美学特征、文本语义及跨模态关联。在构建过程中，数据采集需平衡用户隐私与科研需求，标注工作涉及商业意图的细粒度判断，标注者间一致性控制成为关键难题。此外，平台内容动态更新特性要求数据集持续迭代以保持时效性，这些因素共同构成了隐蔽广告检测研究的核心挑战。

常用场景

经典使用场景

在社交媒体内容分析领域，CHASM数据集为研究者提供了识别隐蔽广告的基准测试平台。该数据集通过整合小红书平台的多模态帖子数据，包括文本描述、用户评论及关联图像，构建了典型的隐蔽广告检测场景。研究者可利用其丰富的标注信息，开发算法区分正常内容与植入式营销，尤其适用于分析中国本土社交媒体的独特传播模式。

衍生相关工作

基于该数据集已衍生出多项创新研究，包括基于图神经网络的跨模态关联分析、结合注意力机制的双流检测框架等。部分工作进一步扩展了数据集应用边界，如开发对抗样本生成方法测试模型鲁棒性，或构建细粒度分类体系区分不同类型的隐蔽广告策略。

数据集最近研究