pramitsahoo/clickbait-spoiling-data-question
收藏Hugging Face2024-05-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pramitsahoo/clickbait-spoiling-data-question
下载链接
链接失效反馈官方服务:
资源简介:
Webis Clickbait Spoiling Corpus 2022(Webis-Clickbait-22)包含从Facebook、Reddit和Twitter爬取的5,000个点击诱饵帖子。该数据集支持点击诱饵剧透任务,即生成满足点击诱饵帖子引发的简短文本。数据集包含点击诱饵帖子、手动清理的链接文档以及为每个点击诱饵帖子提取的剧透内容。剧透内容分为三种类型:短短语剧透、较长段落剧透和多个不连续的文本片段。数据集被划分为训练集、验证集和测试集,其中测试集用于SemEval-2023点击诱饵剧透任务。
Webis Clickbait Spoiling Corpus 2022(Webis-Clickbait-22)包含从Facebook、Reddit和Twitter爬取的5,000个点击诱饵帖子。该数据集支持点击诱饵剧透任务,即生成满足点击诱饵帖子引发的简短文本。数据集包含点击诱饵帖子、手动清理的链接文档以及为每个点击诱饵帖子提取的剧透内容。剧透内容分为三种类型:短短语剧透、较长段落剧透和多个不连续的文本片段。数据集被划分为训练集、验证集和测试集,其中测试集用于SemEval-2023点击诱饵剧透任务。
提供机构:
pramitsahoo
原始信息汇总
Webis Clickbait Spoiling Corpus 2022 (Webis-Clickbait-22)
数据集概述
- 数据来源:Facebook, Reddit, Twitter
- 数据量:包含5,000个已解密的点击诱饵帖子
- 数据内容:包含点击诱饵帖子、手动清理后的链接文档及提取的剧透内容
- 剧透分类:分为短语剧透、长段落剧透和多段非连续文本剧透
数据集用途
- 任务支持:支持点击诱饵解密任务,即生成满足点击诱饵帖子引起好奇心的简短文本
数据集结构
- 训练集:3,200个帖子
- 验证集:800个帖子
- 测试集:1,000个帖子
- 测试集用于SemEval-2023点击诱饵解密任务
相关任务
- SemEval-2023点击诱饵解密任务:该任务通过TIRA.io组织,参与者提交Docker软件进行任务执行



