abdalimran/BaitBuster-Bangla

Name: abdalimran/BaitBuster-Bangla
Creator: abdalimran
Published: 2024-03-01 17:35:58
License: 暂无描述

Hugging Face2024-03-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/abdalimran/BaitBuster-Bangla

下载链接

链接失效反馈

官方服务：

资源简介：

BaitBuster-Bangla是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集，包含253,070条记录和18个特征。数据集从YouTube收集，涵盖了28个非点击诱饵和26个点击诱饵的孟加拉语YouTube频道。数据集提供了视频的元数据、用户参与度统计和标签信息。标签分为三种：预定义的自动标签、人类注释者标签和AI模型生成的标签。数据集以xlsx、csv和parquet三种格式提供。

提供机构：

abdalimran

原始信息汇总

BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in Bangla with Multi-Feature and Multi-Modal Analysis

摘要

该数据集是一个用于孟加拉语点击诱饵检测的多特征和多模态数据集，收集自YouTube平台。数据集包含253,070条记录，共18列，涵盖28个非点击诱饵和26个点击诱饵孟加拉语YouTube频道。数据集提供了视频的多种元数据、用户参与统计和标签信息，有助于研究点击诱饵内容。标签采用三种策略：预定义自动标签、人工标注标签和微调AI模型生成的标签。其中，人工标签仅对10,000条记录可用。数据集提供xlsx、csv和parquet三种格式。

数据描述

数据集包含253,070条记录，共18个特征，分为四类：元数据、主要数据、参与统计和标签。元数据包括频道和视频的基本信息，如唯一标识符、发布日期和时间、缩略图URL等。主要数据包括视频的标题和描述，“Processed”列表示去噪、去重和去偏后的数据。参与统计包含视频的用户参与指标。标签包括预定义自动标签、人工标注标签和AI生成的伪标签。自动标签基于对标题、描述和缩略图的审查自动生成，人工标签由志愿者手动标注，AI标签由微调的AI模型生成。

特征类型	特征名称	数据类型	定义
元数据	channel_id	string	YouTube频道ID
元数据	channel_name	string	YouTube频道名称
元数据	channel_url	string	YouTube频道URL
元数据	video_id	string	视频ID
元数据	publishedAt	datetime	视频发布日期和时间
主要数据	title	string	视频标题
主要数据（Processed）	title_debiased	string	去偏的视频标题
主要数据	description	string	去偏的视频描述
主要数据（Processed）	description_debiased	string	无偏的视频描述
元数据	url	string	视频URL
参与统计	viewCount	int	视频观看次数
参与统计	commentCount	int	视频评论数
参与统计	likeCount	int	视频点赞数
参与统计	dislikeCount	int	视频不喜欢数
元数据	thumbnails	string	视频缩略图URL
标签	auto_labeled	string	通过手动审查自动标注
标签（Processed）	human_labeled	string	人工标注
标签（Processed）	ai_labeled	string	由微调的AI模型生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集