bobotran/spoiler-matching

Name: bobotran/spoiler-matching
Creator: bobotran
Published: 2023-10-22 06:51:14
License: 暂无描述

Hugging Face2023-10-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bobotran/spoiler-matching

下载链接

链接失效反馈

官方服务：

资源简介：

Episode-Specific Spoilers数据集是一个用于剧集特定剧透的语义文本匹配任务的数据集。该数据集包含从Reddit上抓取的关于多个电视剧集的评论，每个评论都分配了剧集编号和剧名，以便进行非常细粒度的剧透检测。数据集还包括每个剧集的摘要，任务是针对给定剧集，对每个评论的摘要进行排序。数据集分为匹配和过滤两个主要部分，匹配部分包含用于训练剧透匹配模型的数据，过滤部分包含自动标注步骤的中间数据。

提供机构：

bobotran

原始信息汇总

数据集概述

数据集名称

Episode-Specific Spoilers

数据集描述

该数据集用于语义文本匹配任务，旨在检测讨论电视剧剧集的评论中的剧透内容。与其他剧透数据集不同，该数据集为每个评论分配了剧集编号和剧名，使得可以匹配到特定剧集，实现非常细粒度的剧透检测。此外，数据集还包括每个（剧名，剧集）对的剧集摘要。对于给定的剧集，任务是对每个评论的摘要进行排序。

数据集组成

matching 文件夹：包含用于训练剧透匹配模型的数据集。所有评论均被确定为相关，无论是通过人工标注还是自动标注。
- with_autolabels 文件夹：包含主要数据集。test.json 和 val.json 包含手工标注的相关评论，而 train.json 包含自动标注的相关评论。
- handlabeled_only 文件夹：与 with_autolabels 文件夹共享相同的 test.json，但 train.json 和 val.json 分别从 with_autolabels/val.json 中按 80-20 分割。
filtering 文件夹：包含自动标注步骤的中间数据。
- handlabeled 文件夹：包含用于训练自动标注器的数据集。第一列标记为 1 的评论被手工标注为 无关，标记为 0 的评论被手工标注为 相关。
- unlabeled 文件夹：未标注的评论被分成两部分，以便在推理过程中更容易加载到内存中。所有评论的第一列标记为 -1，表示它们未标注。