abdalimran/BaitBuster-Bangla
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abdalimran/BaitBuster-Bangla
下载链接
链接失效反馈官方服务:
资源简介:
BaitBuster-Bangla是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集,包含253,070条记录和18个特征。数据集从YouTube收集,涵盖了28个非点击诱饵和26个点击诱饵的孟加拉语YouTube频道。数据集提供了视频的元数据、用户参与度统计和标签信息。标签分为三种:预定义的自动标签、人类注释者标签和AI模型生成的标签。数据集以xlsx、csv和parquet三种格式提供。
BaitBuster-Bangla是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集,包含253,070条记录和18个特征。数据集从YouTube收集,涵盖了28个非点击诱饵和26个点击诱饵的孟加拉语YouTube频道。数据集提供了视频的元数据、用户参与度统计和标签信息。标签分为三种:预定义的自动标签、人类注释者标签和AI模型生成的标签。数据集以xlsx、csv和parquet三种格式提供。
提供机构:
abdalimran
原始信息汇总
BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in Bangla with Multi-Feature and Multi-Modal Analysis
摘要
该数据集是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集,收集自YouTube平台。数据集包含253,070条记录,共18列,涵盖28个非点击诱饵和26个点击诱饵孟加拉语YouTube频道。数据集提供了视频的多种元数据、用户参与统计和标签信息,有助于研究点击诱饵内容。标签采用三种策略:预定义自动标签、人工标注标签和微调AI模型生成的标签。其中,人工标签仅对10,000条记录可用。数据集提供xlsx、csv和parquet三种格式。
数据描述
数据集包含253,070条记录,共18个特征,分为四类:元数据、主要数据、参与统计和标签。元数据包括频道和视频的基本信息,如唯一标识符、发布日期和时间、缩略图URL等。主要数据包括视频的标题和描述,“Processed”列表示去噪、去重和去偏后的数据。参与统计包含视频的用户参与指标。标签包括预定义自动标签、人工标注标签和AI生成的伪标签。自动标签基于对标题、描述和缩略图的审查自动生成,人工标签由志愿者手动标注,AI标签由微调的AI模型生成。
| 特征类型 | 特征名称 | 数据类型 | 定义 |
|---|---|---|---|
| 元数据 | channel_id | string | YouTube频道ID |
| 元数据 | channel_name | string | YouTube频道名称 |
| 元数据 | channel_url | string | YouTube频道URL |
| 元数据 | video_id | string | 视频ID |
| 元数据 | publishedAt | datetime | 视频发布日期和时间 |
| 主要数据 | title | string | 视频标题 |
| 主要数据(Processed) | title_debiased | string | 去偏的视频标题 |
| 主要数据 | description | string | 去偏的视频描述 |
| 主要数据(Processed) | description_debiased | string | 无偏的视频描述 |
| 元数据 | url | string | 视频URL |
| 参与统计 | viewCount | int | 视频观看次数 |
| 参与统计 | commentCount | int | 视频评论数 |
| 参与统计 | likeCount | int | 视频点赞数 |
| 参与统计 | dislikeCount | int | 视频不喜欢数 |
| 元数据 | thumbnails | string | 视频缩略图URL |
| 标签 | auto_labeled | string | 通过手动审查自动标注 |
| 标签(Processed) | human_labeled | string | 人工标注 |
| 标签(Processed) | ai_labeled | string | 由微调的AI模型生成 |



