five

manandey/id_clickbait

收藏
Hugging Face2024-04-18 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/manandey/id_clickbait
下载链接
链接失效反馈
官方服务:
资源简介:
CLICK-ID数据集是一个包含印度尼西亚新闻标题的集合,这些标题来自12家本地在线新闻出版商。数据集主要由两部分组成:(i) 46,119条原始文章数据,和(ii) 15,000条带有clickbait注释的样本标题。注释过程由三位注释者进行,每个标题仅基于标题本身进行判断,多数意见被视为真实标签。在注释样本中,有6,290个clickbait和8,710个非clickbait标签。该数据集旨在支持印度尼西亚语中的clickbait检测任务,并已用于开发一个分类模型。
提供机构:
manandey
原始信息汇总

数据集概述

  • 名称: Indonesian Clickbait Headlines
  • 语言: 印尼语
  • 任务类别: 文本分类
  • 大小: 10K<n<100K
  • 许可证: Creative Commons Attribution 4.0 International license

数据集详情

  • 来源: 该数据集由12个印尼本地在线新闻出版商提供,包括detikNews, Fimela, Kapanlagi, Kompas, Liputan6, Okezone, Posmetro-Medan, Republika, Sindonews, Tempo, Tribunnews, 和 Wowkeren。
  • 组成: 数据集包含两部分:(i) 46,119条原始文章数据,(ii) 15,000条点击诱饵标注的新闻标题样本。
  • 标注: 每条新闻标题由3位标注者审核,基于多数原则确定最终标注结果。标注样本中,6,290条为点击诱饵,8,710条为非点击诱饵。

数据字段

  • 标注字段:
    • label_score: 标注ID,0表示非点击诱饵,1表示点击诱饵。
    • title: 新闻文章标题。
    • label: 文章标签,非点击诱饵或点击诱饵。

联系方式

  • 联系人: Andika William, Yunita Sari
  • 邮箱: andika.william@mail.ugm.ac.id, yunita.sari@ugm.ac.id
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作