five

christinacdl/clickbait_detection_dataset

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/christinacdl/clickbait_detection_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含37,870条文本,分为17,850条非点击诱饵文本和20,020条点击诱饵文本。所有重复值已被移除。数据集使用sklearn进行分割,80%用于训练,20%用于临时测试(分层标签)。然后将测试集进一步分割为50%的测试和验证集(分层标签)。最终的数据集分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集是从其他在线可用的数据集中组合而成的。

该数据集包含37,870条文本,分为17,850条非点击诱饵文本和20,020条点击诱饵文本。所有重复值已被移除。数据集使用sklearn进行分割,80%用于训练,20%用于临时测试(分层标签)。然后将测试集进一步分割为50%的测试和验证集(分层标签)。最终的数据集分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集是从其他在线可用的数据集中组合而成的。
提供机构:
christinacdl
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 标签: clickbait, not, binary_classification
  • 任务类别: text-classification

数据集规模

  • 总文本数: 37,870
  • 非点击诱饵文本数: 17,850
  • 点击诱饵文本数: 20,020

数据处理

  • 去重: 所有重复值已被移除
  • 分割: 使用sklearn进行分割,80%训练集,20%临时测试集(按标签分层)。然后进一步将测试集按0.50%分为测试集和验证集(按标签分层)
  • 分割比例: 80/10/10

标签分布

  • 训练集:
    • 0 (非点击诱饵): 14,280
    • 1 (点击诱饵): 16,016
  • 验证集:
    • 0 (非点击诱饵): 1,785
    • 1 (点击诱饵): 2,002
  • 测试集:
    • 0 (非点击诱饵): 1,785
    • 1 (点击诱饵): 2,002

数据来源

  • 数据集由以下在线可用数据集组合而成:
    • https://www.kaggle.com/datasets/amananandrai/clickbait-dataset
    • https://www.kaggle.com/datasets/thelazyaz/youtube-clickbait-classification?resource=download
    • https://www.kaggle.com/datasets/vikassingh1996/news-clickbait-dataset?select=train2.csv
    • https://www.kaggle.com/competitions/clickbait-news-detection/data?select=train.csv
    • https://www.kaggle.com/competitions/clickbait-news-detection/data?select=valid.csv
    • https://zenodo.org/records/6362726#.YsbdSTVBzrk
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作