CS-lol
收藏arXiv2023-01-17 更新2024-06-21 收录
下载链接:
https://github.com/junj2ejj/CS-lol
下载链接
链接失效反馈官方服务:
资源简介:
CS-lol是一个大规模数据集,由筑波大学综合人类科学研究生院创建,专注于电子竞技直播中的观众评论与游戏场景的匹配。数据集包含20场《英雄联盟》电子竞技比赛的观众评论和相应的游戏场景描述,总计60,431条评论。创建过程中,数据从YouTube和Twitch平台收集,通过自动语音识别和手动搜索匹配视频内容。CS-lol的应用领域包括信息检索和自然语言处理,旨在通过分析观众评论来理解观众行为和偏好,优化直播体验。
CS-lol is a large-scale dataset developed by the Graduate School of Comprehensive Human Sciences at the University of Tsukuba, focusing on matching viewer comments with in-game scenarios in esports live broadcasts. The dataset includes 20 *League of Legends* esports matches, containing a total of 60,431 viewer comments paired with their corresponding in-game scene descriptions. During the dataset construction, data was collected from YouTube and Twitch platforms, and matched to video content via automatic speech recognition (ASR) and manual searches. The application fields of CS-lol cover information retrieval and natural language processing (NLP), with the aim of understanding viewer behaviors and preferences by analyzing viewer comments to optimize live streaming experiences.
提供机构:
筑波大学综合人类科学研究生院
创建时间:
2023-01-17
搜集汇总
数据集介绍

构建方式
CS-lol数据集的构建基于电子竞技直播中的观众评论与游戏场景描述的配对。研究团队从YouTube和Twitch平台分别收集了20场《英雄联盟》职业比赛的评论和场景描述。场景描述通过YouTube的自动语音识别系统生成,而观众评论则从Twitch的直播回放中手动提取。为确保数据的一致性,研究团队对两个平台上的视频进行了时间戳对齐,并过滤了包含极少信息或仅包含表情符号的评论。此外,通过计算评论与场景描述的相关性得分,进一步筛选出与场景高度相关的评论,最终形成了包含场景描述、观众评论及相关性得分的数据集。
特点
CS-lol数据集的显著特点在于其大规模的观众评论与游戏场景描述的配对,涵盖了20场职业比赛,包含24,770条场景描述和60,431条观众评论。数据集通过相关性得分对评论进行了筛选,确保每条评论与特定场景高度相关。此外,数据集还对观众信息进行了匿名化处理,以保护隐私。数据集的评论和描述在词汇分布上具有多样性,为研究观众在电子竞技直播中的互动行为提供了丰富的资源。
使用方法
CS-lol数据集可用于多种研究任务,特别是观众评论检索任务,即根据给定的游戏场景描述检索相关的观众评论。研究者可以使用该数据集进行信息检索、自然语言处理等领域的实验,探索观众评论与游戏场景之间的语义关联。此外,数据集还可用于情感分析、命名实体识别等自然语言处理任务,帮助理解观众在直播中的表达方式和情感倾向。通过分析评论与场景的相关性,研究者可以进一步挖掘观众在电子竞技直播中的行为模式和偏好。
背景与挑战
背景概述
随着电子竞技(E-sports)的迅猛发展,电子竞技直播已成为一个拥有庞大市场的产业,吸引了全球数亿观众。在这一背景下,观众通过实时评论与赛事、解说员以及其他观众互动,形成了独特的社交体验。为了深入理解观众在电子竞技直播中的评论行为及其与赛事场景的关联,Junjie H. Xu等人于2023年开发了CS-lol数据集。该数据集包含了来自电子竞技直播的观众评论与对应的游戏场景描述,旨在通过这些数据推动对观众评论的深入研究。CS-lol数据集的发布不仅为研究者提供了一个大规模的资源,还提出了一个名为“观众评论检索”的任务,旨在从海量评论中检索出与特定场景相关的评论,从而更好地理解观众的实时反馈。
当前挑战
CS-lol数据集的构建与应用面临多重挑战。首先,电子竞技直播中的观众评论具有实时性和高度互动性,评论内容往往简短且包含大量表情符号,这使得评论的语义理解变得复杂。其次,评论与场景的关联性需要通过精确的时间戳进行匹配,而观众在评论时的打字速度和场景的不可预测性增加了这一任务的难度。此外,传统的信息检索方法在处理这类高度简短且语义丰富的评论时表现不佳,如何设计有效的检索模型以捕捉评论与场景之间的语义关联,成为该数据集应用中的主要挑战。
常用场景
经典使用场景
CS-lol数据集的经典使用场景主要集中在电子竞技直播中的观众评论与游戏场景的关联分析。通过将观众评论与游戏场景描述进行配对,研究者可以深入探讨观众在观看电子竞技比赛时的实时反馈和互动行为。这种配对分析不仅有助于理解观众的情绪和偏好,还能为直播平台提供优化用户体验的策略,例如通过评论检索任务来提升直播互动的精准性。
实际应用
CS-lol数据集在实际应用中具有广泛的前景,特别是在电子竞技直播平台的用户体验优化方面。通过分析观众评论与游戏场景的关联性,平台可以实现更精准的评论推荐和互动功能,提升观众的参与感和满意度。此外,该数据集还可用于直播内容的自动化生成,如根据观众评论自动生成解说词或实时反馈,从而增强直播的趣味性和互动性。
衍生相关工作
CS-lol数据集的发布激发了大量相关研究工作,特别是在信息检索(IR)和自然语言处理(NLP)领域。研究者们基于该数据集提出了多种评论检索模型,如BM25、QLD和SDM等,这些模型在评论与场景的匹配任务中表现出色。此外,CS-lol还启发了在NLP领域的进一步探索,如命名实体识别(NER)和依赖解析等任务,这些任务有助于更深入地理解电子竞技直播中的语言特征和观众行为。
以上内容由遇见数据集搜集并总结生成



