five

bobotran/spoiler-matching

收藏
Hugging Face2023-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bobotran/spoiler-matching
下载链接
链接失效反馈
官方服务:
资源简介:
Episode-Specific Spoilers数据集是一个用于剧集特定剧透的语义文本匹配任务的数据集。该数据集包含从Reddit上抓取的关于多个电视剧集的评论,每个评论都分配了剧集编号和剧名,以便进行非常细粒度的剧透检测。数据集还包括每个剧集的摘要,任务是针对给定剧集,对每个评论的摘要进行排序。数据集分为匹配和过滤两个主要部分,匹配部分包含用于训练剧透匹配模型的数据,过滤部分包含自动标注步骤的中间数据。
提供机构:
bobotran
原始信息汇总

数据集概述

数据集名称

Episode-Specific Spoilers

数据集描述

该数据集用于语义文本匹配任务,旨在检测讨论电视剧剧集的评论中的剧透内容。与其他剧透数据集不同,该数据集为每个评论分配了剧集编号和剧名,使得可以匹配到特定剧集,实现非常细粒度的剧透检测。此外,数据集还包括每个(剧名,剧集)对的剧集摘要。对于给定的剧集,任务是对每个评论的摘要进行排序。

数据集组成

  • matching 文件夹:包含用于训练剧透匹配模型的数据集。所有评论均被确定为相关,无论是通过人工标注还是自动标注。
    • with_autolabels 文件夹:包含主要数据集。test.jsonval.json 包含手工标注的相关评论,而 train.json 包含自动标注的相关评论。
    • handlabeled_only 文件夹:与 with_autolabels 文件夹共享相同的 test.json,但 train.jsonval.json 分别从 with_autolabels/val.json 中按 80-20 分割。
  • filtering 文件夹:包含自动标注步骤的中间数据。
    • handlabeled 文件夹:包含用于训练自动标注器的数据集。第一列标记为 1 的评论被手工标注为 无关,标记为 0 的评论被手工标注为 相关
    • unlabeled 文件夹:未标注的评论被分成两部分,以便在推理过程中更容易加载到内存中。所有评论的第一列标记为 -1,表示它们未标注。

数据集规模

  • 总评论数:522,991 条
  • 手工标注评论数:11,032 条

语言

英语(en)

许可

CC BY-SA 3.0

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于句子相似性任务的剧透匹配数据集,包含来自Reddit上13个电视节目的52.2万条评论,每条评论都关联了特定剧集和节目名称,支持细粒度剧透检测。数据集通过手动和自动标注区分评论相关性,并提供了每集的摘要,适用于训练剧透匹配模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作