bobotran/spoiler-matching
收藏Hugging Face2023-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bobotran/spoiler-matching
下载链接
链接失效反馈官方服务:
资源简介:
Episode-Specific Spoilers数据集是一个用于剧集特定剧透的语义文本匹配任务的数据集。该数据集包含从Reddit上抓取的关于多个电视剧集的评论,每个评论都分配了剧集编号和剧名,以便进行非常细粒度的剧透检测。数据集还包括每个剧集的摘要,任务是针对给定剧集,对每个评论的摘要进行排序。数据集分为匹配和过滤两个主要部分,匹配部分包含用于训练剧透匹配模型的数据,过滤部分包含自动标注步骤的中间数据。
提供机构:
bobotran
原始信息汇总
数据集概述
数据集名称
Episode-Specific Spoilers
数据集描述
该数据集用于语义文本匹配任务,旨在检测讨论电视剧剧集的评论中的剧透内容。与其他剧透数据集不同,该数据集为每个评论分配了剧集编号和剧名,使得可以匹配到特定剧集,实现非常细粒度的剧透检测。此外,数据集还包括每个(剧名,剧集)对的剧集摘要。对于给定的剧集,任务是对每个评论的摘要进行排序。
数据集组成
- matching 文件夹:包含用于训练剧透匹配模型的数据集。所有评论均被确定为相关,无论是通过人工标注还是自动标注。
- with_autolabels 文件夹:包含主要数据集。
test.json和val.json包含手工标注的相关评论,而train.json包含自动标注的相关评论。 - handlabeled_only 文件夹:与
with_autolabels文件夹共享相同的test.json,但train.json和val.json分别从with_autolabels/val.json中按 80-20 分割。
- with_autolabels 文件夹:包含主要数据集。
- filtering 文件夹:包含自动标注步骤的中间数据。
- handlabeled 文件夹:包含用于训练自动标注器的数据集。第一列标记为
1的评论被手工标注为无关,标记为0的评论被手工标注为相关。 - unlabeled 文件夹:未标注的评论被分成两部分,以便在推理过程中更容易加载到内存中。所有评论的第一列标记为
-1,表示它们未标注。
- handlabeled 文件夹:包含用于训练自动标注器的数据集。第一列标记为
数据集规模
- 总评论数:522,991 条
- 手工标注评论数:11,032 条
语言
英语(en)
许可
CC BY-SA 3.0
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于句子相似性任务的剧透匹配数据集,包含来自Reddit上13个电视节目的52.2万条评论,每条评论都关联了特定剧集和节目名称,支持细粒度剧透检测。数据集通过手动和自动标注区分评论相关性,并提供了每集的摘要,适用于训练剧透匹配模型。
以上内容由遇见数据集搜集并总结生成



