christinacdl/clickbait_detection_dataset
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/christinacdl/clickbait_detection_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含37,870条文本,分为17,850条非点击诱饵文本和20,020条点击诱饵文本。所有重复值已被移除。数据集使用sklearn进行分割,80%用于训练,20%用于临时测试(分层标签)。然后将测试集进一步分割为50%的测试和验证集(分层标签)。最终的数据集分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集是从其他在线可用的数据集中组合而成的。
该数据集包含37,870条文本,分为17,850条非点击诱饵文本和20,020条点击诱饵文本。所有重复值已被移除。数据集使用sklearn进行分割,80%用于训练,20%用于临时测试(分层标签)。然后将测试集进一步分割为50%的测试和验证集(分层标签)。最终的数据集分割比例为80/10/10。训练集、验证集和测试集的标签分布也详细列出。数据集是从其他在线可用的数据集中组合而成的。
提供机构:
christinacdl
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 标签: clickbait, not, binary_classification
- 任务类别: text-classification
数据集规模
- 总文本数: 37,870
- 非点击诱饵文本数: 17,850
- 点击诱饵文本数: 20,020
数据处理
- 去重: 所有重复值已被移除
- 分割: 使用sklearn进行分割,80%训练集,20%临时测试集(按标签分层)。然后进一步将测试集按0.50%分为测试集和验证集(按标签分层)
- 分割比例: 80/10/10
标签分布
- 训练集:
- 0 (非点击诱饵): 14,280
- 1 (点击诱饵): 16,016
- 验证集:
- 0 (非点击诱饵): 1,785
- 1 (点击诱饵): 2,002
- 测试集:
- 0 (非点击诱饵): 1,785
- 1 (点击诱饵): 2,002
数据来源
- 数据集由以下在线可用数据集组合而成:
- https://www.kaggle.com/datasets/amananandrai/clickbait-dataset
- https://www.kaggle.com/datasets/thelazyaz/youtube-clickbait-classification?resource=download
- https://www.kaggle.com/datasets/vikassingh1996/news-clickbait-dataset?select=train2.csv
- https://www.kaggle.com/competitions/clickbait-news-detection/data?select=train.csv
- https://www.kaggle.com/competitions/clickbait-news-detection/data?select=valid.csv
- https://zenodo.org/records/6362726#.YsbdSTVBzrk



