five

Los Ratones game videos

收藏
github2025-02-27 更新2025-02-23 收录
下载链接:
https://github.com/divakaivan/lolesports-voice-analytics
下载链接
链接失效反馈
官方服务:
资源简介:
Los Ratones游戏视频,从YouTube频道Nemesis 2获取,包含团队的实战训练视频。

This dataset comprises Los Ratones game videos sourced from the YouTube channel Nemesis 2, which include the team's actual combat training videos.
创建时间:
2025-02-14
原始信息汇总

LoL Esports Voice Analytics 数据集概述

数据集简介

该数据集是关于《英雄联盟》电子竞技(LoLEsports)的语音通信分析项目,旨在通过分析公开的团队游戏中的语音通信,为队伍提供游戏策略和沟通效率的洞见。

问题陈述

在LoLEsports中,通信音频通常是私密的,仅由队伍和Riot Games持有,限制了分析至结构化数据如游戏内统计数据。近期,一支新成立的队伍开始公开分享他们的训练数据,使得基于AI的语音分析能够从非结构化音频中提取洞见,帮助队伍评估指挥、效率和策略。

机遇

最近成立的二线EMEA队伍Los Ratones现在在YouTube上公开分享完整的游戏内语音通信,这为开源AI工具的分析开发提供了新的机会,有利于队伍、分析师和粉丝。

主要目标

  • 开发可视化工具和分析,揭示沟通模式和动态,为Los Ratones提供改进游戏玩法的有力见解。
  • 分析电子竞技训练的音频,以确定团队沟通的强项和改进领域,使决策和游戏内策略更加精准。

次要目标

  • 通过分享来自多说话人、动态环境的音频数据处理流程,为开源语音AI社区做出贡献,助力语音识别模型的开发。
  • 设置一个从YouTube提取和转换原始音频数据的流程,为电子竞技队伍搭建自己的流程提供指导。

数据模型

  • Audio:从视频中提取,存储技术属性,并与游戏转录关联以便进一步分析。
  • Game Transcription:包括从音频生成的文本、总结、清晰度级别和热度指标。
  • Video:包含团队游戏内通信的YouTube视频。
  • Team:代表Lolesports团队,链接到玩家名称和他们所属的联赛。

数据来源

  • Los Ratones的游戏视频来自Nemesis 2 YouTube频道,该频道由一名玩家运营。Scrim视频通常每周上传3-4次,每次包含4-6场比赛。截至目前,已有33个scrim视频可用。
  • 团队信息从LoL Fandom网站抓取,这是一个关于《英雄联盟》相关内容的维基网站。

技术栈

  • 使用Airflow和Astronomer进行数据摄取。
  • 使用Terraform部署Google Cloud Platform工具。
  • 使用Google Cloud Storage作为数据湖存储非结构化数据。
  • 使用Google BigQuery作为数据仓库存储团队信息和视频原始信息。
  • 使用dbt与BigQuery交互,进行数据 refinement 和数据质量检查。
  • 使用Streamlit自动部署可视化仪表板。

数据流程

  • 提取与加载:音频文件和转录文件上传至Google Cloud Storage,视频元数据和转录元数据上载至BigQuery。
  • 数据转换:使用dbt进行数据转换和DQ检查。

关键指标

指标 定义 范围 来源/备注
Communication Clarity 游戏中沟通的清晰度,表示理解难度 1 (低) to 5 (高) AI生成评分
Communication Intensity 游戏中沟通的情感强度 1 (低) to 5 (高) AI生成评分
Word Count 游戏中说话的词数,反映沟通量 整数计数 转录分析
Top Bigrams 转录中最频繁的两词组合,突出关键短语或主题 两词组合频率列表 NLP技术提取

仪表板

仪表板 展示了概念验证和数据分析结果。

挑战

  • pytube包与YouTube API的稳定性问题。
  • 更好的whisper转录模型需要更多内存。
  • OpenAI GPT需要API密钥和资金。

未来改进

  • 利用音频的音量、音高等特征直接提取洞见。
  • 使用代理服务器避免云环境中“检测到机器人”的错误。
  • 使用更强大的机器加载更大模型或通过API调用。
  • 改进清晰度和强度指标,使用专门训练的模型。
  • 利用音频数据改进说话人识别模型。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建主要依托于YouTube频道Nemesis 2所提供的Los Ratones游戏视频,以及通过LoL Fandom网站爬取的团队信息。视频数据经过每日自动化的提取和加载,音频文件和转录文本存储在Google Cloud Storage中,并通过Google BigQuery进行 metadata 的存储和团队信息的整合。此外,使用dbt工具对数据进行进一步的转换和优化,以支持后续的分析和模型训练。
特点
此数据集的特点在于它是首个公开的团队游戏内语音通信数据,为开源AI工具分析团队沟通提供了新的机会。数据集包含了音频文件、游戏转录文本、视频元数据和团队信息,覆盖了多方面的游戏内沟通分析需求。此外,数据集还提供了针对语音清晰度、沟通强度和词汇量的关键指标,以及基于转录文本的词组频率分析,为团队沟通的质量和效率提供了量化的评估。
使用方法
用户可以通过访问GitHub仓库来获取数据集的详细使用说明。数据集的使用包括从Google Cloud Storage中下载数据,利用Google BigQuery进行数据分析,并通过dbt工具对数据进行转换和优化。此外,用户还可以访问部署的Streamlit仪表板来直观地查看和分析通信模式与动态。针对未来的研究,数据集还提供了模型训练和演讲者分离模型改进的潜力。
背景与挑战
背景概述
League of Legends电子竞技领域,团队沟通音频的分析一直受限,因为此类音频通常保持私密,仅由队伍和Riot Games持有。这导致分析多限于游戏内统计数据等结构化数据。近期,一支名为Los Ratones的二线EMEA队伍开始公开分享其全部训练数据,为开源社区提供了新的机遇。Los Ratones游戏视频数据集,由Nemesis 2 YouTube频道提供,该频道由队伍中的一名玩家运营,包含了公开的游戏内语音通信。此数据集的创建,旨在开发能够分析团队沟通的可视化和分析工具,以提升Los Ratones队伍的游戏表现,并对开源语音AI社区做出贡献,推动多人动态环境下的语音识别模型发展。
当前挑战
该数据集在构建过程中遇到了多重挑战。首先,从YouTube API提取数据时,pytube包频繁与API冲突,因为YouTube积极阻止机器人提取数据。此外,更高质量的语音转录模型需要更多内存,迫使我选择了较小的模型版本以适应内存限制,导致转录时间延长。同时,使用OpenAI GPT也需要API密钥和资金支持。在所解决的问题方面,该数据集面临的挑战包括:确保音频数据的准确转录,发展适用于多人在动态环境中沟通的语音识别模型,以及构建稳健的数据管道来处理和转换原始音频数据。
常用场景
经典使用场景
在电子竞技领域,尤其是《英雄联盟》电竞赛事中,团队沟通音频的分析一直受限。Los Ratones游戏视频数据集的公开,为AI驱动的语音分析提供了新的机会,使得从非结构化的音频中提取洞察成为可能,进而帮助团队评估指挥决策、效率与策略。该数据集的经典使用场景在于,通过分析团队在游戏中的沟通模式与动态,为Los Ratones队伍提供可操作的洞见,以提升他们的游戏表现。
解决学术问题
该数据集解决了长期以来电子竞技领域中,沟通音频数据难以获取和分析的问题。它不仅提供了丰富的音频和转录文本资源,还关联了游戏统计数据,使得研究者能够深入理解团队沟通对比赛结果的影响,为电子竞技领域的学术研究提供了新的视角和数据支持。
衍生相关工作
该数据集的公开不仅促进了电子竞技团队沟通分析工具的开源发展,还衍生了一系列相关工作,如语音识别、情感分析和说话人分割等模型的训练与优化,进一步推动了电子竞技数据分析领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作