samjaylin/COHETS

Name: samjaylin/COHETS
Creator: samjaylin
Published: 2024-01-24 10:26:25
License: 暂无描述

Hugging Face2024-01-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/samjaylin/COHETS

下载链接

链接失效反馈

官方服务：

资源简介：

Twitch Streaming Video数据集是一个收集自Twitch平台的流媒体视频集合，专注于“脱口秀和播客”类别，并包括两位知名主播的内容：@HealthyGamer_GG，一位专注于帮助游戏玩家克服游戏成瘾的精神科医生，以及@Markiplier，一位著名的网红。数据集包含65个流媒体视频，总时长为9128分钟（约152.1小时），每个视频平均时长约为2.34小时。此外，数据集还包含了从测试视频的聊天框中爬取的所有观众消息，以及163个主播话语片段。这些片段时长不一，大部分片段时长不到一分钟，这是为了反映主播在动态和活跃的对话中的表现。该数据集可用于多种研究目的，包括从对话导向的流媒体视频中提取亮点、分析观众参与度和意图，以及探索主播行为对观众互动的影响。

提供机构：

samjaylin

原始信息汇总

Twitch Streaming Video Dataset

概述

Twitch Streaming Video Dataset 是从 Twitch 这一大型直播平台收集的直播视频数据集。该数据集专注于“脱口秀与播客”类别，并包含两位知名主播的内容：@HealthyGamer_GG，一位专注于帮助游戏玩家克服游戏成瘾的心理医生，以及@Markiplier，一位广受欢迎的影响者。

主播和频道

@HealthyGamer_GG： 该主播专注于通过讨论心理健康问题帮助游戏玩家克服游戏成瘾。其频道拥有约50万订阅和500万观看次数，提供了关于成瘾精神病学的宝贵见解。
@Markiplier： 一位拥有超过200万订阅的知名影响者，@Markiplier 在直播中分享生活时刻和引人深思的观点。其频道总观看次数达到1280万。

数据集详情

视频长度： 该数据集包含65个直播视频，总时长为9128分钟（约152.1小时）。每个直播视频的平均时长约为2.34小时。
观众消息： 我们从测试视频的聊天框中爬取了所有观众消息，以评估观众意图对精彩片段提取的影响。
片段信息： 数据集包含总共163个主播话语片段。这些片段的时长各异，其中大部分时长不到一分钟。这种短片段长度是有意为之，因为主播通常会进行动态而活泼的对话。

用途

您可以使用此数据集进行多种研究，包括：

从以对话为导向的直播视频中提取精彩片段。
分析聊天消息中的观众参与度和意图。
探索主播行为对观众互动的影响。

引用

如果您在研究中使用此数据集，请引用我们的论文 https://www.sciencedirect.com/science/article/pii/S0950705122010930 作为来源。

搜集汇总

数据集介绍

构建方式

在数字媒体研究领域，Twitch Streaming Video Dataset的构建体现了对直播视频内容的系统性采集与处理。该数据集从Twitch平台“脱口秀与播客”类别中，选取了两位知名主播——专注于游戏成瘾心理健康的@HealthyGamer_GG和分享生活见解的@Markiplier——的直播视频作为核心素材。通过爬取65个总时长约152.1小时的流媒体视频，并同步采集了对应聊天框中的全部观众留言，数据集进一步细分为163个主播话语片段，这些片段大多短于一分钟，以捕捉直播中动态对话的典型特征。

特点

该数据集的特点在于其聚焦于对话导向的流媒体内容，并整合了多模态信息。视频素材源自特定主题的主播频道，覆盖心理健康与生活分享等多元话题，总时长充足且片段划分细致，便于分析短时交互模式。同时，数据集包含了丰富的观众留言数据，为研究观众意图与互动行为提供了直接依据。这种视频与文本的有机结合，使得数据集在探究流媒体高亮内容提取、观众参与度分析等领域具有独特价值。

使用方法

研究人员可利用该数据集进行多项实证分析。在技术应用层面，它适用于开发或评估从对话式流媒体视频中自动提取高亮片段的算法模型。在行为研究领域，通过分析附带的观众留言，可以深入探讨观众参与度、意图表达及其与主播行为的关联。数据集的结构化设计支持对视频片段与对应聊天消息的关联分析，为理解流媒体生态中的互动动力学提供了可靠的数据基础。

背景与挑战

背景概述

随着流媒体平台的兴起，直播视频内容分析成为多媒体信息检索领域的重要研究方向。Twitch Streaming Video Dataset由研究人员于2022年构建，聚焦于Twitch平台上的“脱口秀与播客”类别，收录了知名主播@HealthyGamer_GG和@Markiplier的直播内容。该数据集旨在探索对话导向型流媒体视频的高光片段提取问题，通过整合观众聊天消息与主播话语片段，为研究流媒体内容理解、观众参与度分析以及心理健康议题的数字化表达提供了宝贵资源。其构建基于实际流媒体场景，反映了当代网络文化中内容消费与互动的复杂性，对推动人机交互与多媒体计算领域的实证研究具有显著意义。

当前挑战

该数据集致力于解决对话流媒体视频的高光提取挑战，其核心在于从冗长且动态的直播内容中自动识别关键片段，这需要克服语义连贯性分析、多模态信息融合以及实时互动语境理解的难题。在构建过程中，研究者面临数据采集的复杂性，包括从非结构化的聊天框中爬取观众消息，并确保消息与视频时序的精确对齐；同时，主播话语片段时长普遍较短且内容跳跃，增加了标注与分割的难度，需在保持对话自然流变的前提下进行有效片段划分，以支撑后续的意图分析与交互建模。

常用场景

经典使用场景

在数字媒体与计算社会科学领域，Twitch Streaming Video Dataset 为研究者提供了分析流媒体视频内容的宝贵资源。该数据集聚焦于“脱口秀与播客”类别，收录了来自知名主播的流媒体视频，其经典使用场景在于支持对话导向的视频高光片段提取研究。通过结合流媒体话语片段与观众聊天消息，研究者能够深入探索视频内容中的关键时刻识别，从而推动多媒体摘要与内容理解技术的发展。

解决学术问题

该数据集有效解决了流媒体视频分析中的若干学术挑战，特别是在高光提取与观众参与度建模方面。它通过提供结构化的流媒体话语片段和观众意图数据，助力研究者探究动态对话环境中内容显著性的自动识别问题。这不仅丰富了多媒体信息检索领域的方法论，还为理解流媒体平台上的社交互动模式提供了实证基础，对计算传播学与人工智能交叉研究具有显著意义。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在高光提取算法与观众意图分析领域。例如，相关研究通过结合流媒体话语特征与聊天消息时序数据，提出了基于多模态融合的片段重要性评估模型。这些工作不仅拓展了视频内容理解的边界，还为后续研究提供了可复现的基准，促进了流媒体分析社区的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集