manandey/id_clickbait
收藏Hugging Face2024-04-18 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/manandey/id_clickbait
下载链接
链接失效反馈官方服务:
资源简介:
CLICK-ID数据集是一个包含印度尼西亚新闻标题的集合,这些标题来自12家本地在线新闻出版商。数据集主要由两部分组成:(i) 46,119条原始文章数据,和(ii) 15,000条带有clickbait注释的样本标题。注释过程由三位注释者进行,每个标题仅基于标题本身进行判断,多数意见被视为真实标签。在注释样本中,有6,290个clickbait和8,710个非clickbait标签。该数据集旨在支持印度尼西亚语中的clickbait检测任务,并已用于开发一个分类模型。
提供机构:
manandey
原始信息汇总
数据集概述
- 名称: Indonesian Clickbait Headlines
- 语言: 印尼语
- 任务类别: 文本分类
- 大小: 10K<n<100K
- 许可证: Creative Commons Attribution 4.0 International license
数据集详情
- 来源: 该数据集由12个印尼本地在线新闻出版商提供,包括detikNews, Fimela, Kapanlagi, Kompas, Liputan6, Okezone, Posmetro-Medan, Republika, Sindonews, Tempo, Tribunnews, 和 Wowkeren。
- 组成: 数据集包含两部分:(i) 46,119条原始文章数据,(ii) 15,000条点击诱饵标注的新闻标题样本。
- 标注: 每条新闻标题由3位标注者审核,基于多数原则确定最终标注结果。标注样本中,6,290条为点击诱饵,8,710条为非点击诱饵。
数据字段
- 标注字段:
label_score: 标注ID,0表示非点击诱饵,1表示点击诱饵。title: 新闻文章标题。label: 文章标签,非点击诱饵或点击诱饵。
联系方式
- 联系人: Andika William, Yunita Sari
- 邮箱: andika.william@mail.ugm.ac.id, yunita.sari@ugm.ac.id



