five

abdalimran/BaitBuster-Bangla

收藏
Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abdalimran/BaitBuster-Bangla
下载链接
链接失效反馈
官方服务:
资源简介:
BaitBuster-Bangla是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集,包含253,070条记录和18个特征。数据集从YouTube收集,涵盖了28个非点击诱饵和26个点击诱饵的孟加拉语YouTube频道。数据集提供了视频的元数据、用户参与度统计和标签信息。标签分为三种:预定义的自动标签、人类注释者标签和AI模型生成的标签。数据集以xlsx、csv和parquet三种格式提供。

BaitBuster-Bangla是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集,包含253,070条记录和18个特征。数据集从YouTube收集,涵盖了28个非点击诱饵和26个点击诱饵的孟加拉语YouTube频道。数据集提供了视频的元数据、用户参与度统计和标签信息。标签分为三种:预定义的自动标签、人类注释者标签和AI模型生成的标签。数据集以xlsx、csv和parquet三种格式提供。
提供机构:
abdalimran
原始信息汇总

BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in Bangla with Multi-Feature and Multi-Modal Analysis

摘要

该数据集是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集,收集自YouTube平台。数据集包含253,070条记录,共18列,涵盖28个非点击诱饵和26个点击诱饵孟加拉语YouTube频道。数据集提供了视频的多种元数据、用户参与统计和标签信息,有助于研究点击诱饵内容。标签采用三种策略:预定义自动标签、人工标注标签和微调AI模型生成的标签。其中,人工标签仅对10,000条记录可用。数据集提供xlsx、csv和parquet三种格式。

数据描述

数据集包含253,070条记录,共18个特征,分为四类:元数据、主要数据、参与统计和标签。元数据包括频道和视频的基本信息,如唯一标识符、发布日期和时间、缩略图URL等。主要数据包括视频的标题和描述,“Processed”列表示去噪、去重和去偏后的数据。参与统计包含视频的用户参与指标。标签包括预定义自动标签、人工标注标签和AI生成的伪标签。自动标签基于对标题、描述和缩略图的审查自动生成,人工标签由志愿者手动标注,AI标签由微调的AI模型生成。

特征类型 特征名称 数据类型 定义
元数据 channel_id string YouTube频道ID
元数据 channel_name string YouTube频道名称
元数据 channel_url string YouTube频道URL
元数据 video_id string 视频ID
元数据 publishedAt datetime 视频发布日期和时间
主要数据 title string 视频标题
主要数据(Processed) title_debiased string 去偏的视频标题
主要数据 description string 去偏的视频描述
主要数据(Processed) description_debiased string 无偏的视频描述
元数据 url string 视频URL
参与统计 viewCount int 视频观看次数
参与统计 commentCount int 视频评论数
参与统计 likeCount int 视频点赞数
参与统计 dislikeCount int 视频不喜欢数
元数据 thumbnails string 视频缩略图URL
标签 auto_labeled string 通过手动审查自动标注
标签(Processed) human_labeled string 人工标注
标签(Processed) ai_labeled string 由微调的AI模型生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作