five

BaitBuster-Bangla

收藏
arXiv2023-10-13 更新2024-06-21 收录
下载链接:
https://data.mendeley.com/datasets/3c6ztw5nft/1
下载链接
链接失效反馈
官方服务:
资源简介:
BaitBuster-Bangla是迄今为止最大的孟加拉语点击诱饵数据集,包含253,070个数据点,涵盖18种不同特征,如视频元数据、用户参与统计和标签。该数据集通过YouTube API自动收集,经过多步骤的预处理,包括去噪、去重和去偏,以确保数据的无偏性和可靠性。数据集的应用领域主要集中在自然语言处理和数据科学,旨在解决低资源语言中点击诱饵现象的建模问题,支持多模态分析和跨语言应用。

BaitBuster-Bangla is the largest Bengali clickbait dataset to date, comprising 253,070 data points and covering 18 distinct features including video metadata, user engagement metrics, and tags. Automatically collected via the YouTube API, this dataset underwent multi-step preprocessing including denoising, deduplication, and debiasing to ensure its unbiasedness and reliability. Its primary application domains focus on natural language processing and data science, aiming to address the modeling of clickbait phenomena in low-resource languages, and supporting multimodal analysis and cross-lingual applications.
提供机构:
先进机器智能研究实验室(AMIRL)
创建时间:
2023-10-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作