Los Ratones game videos

github2025-02-27 更新2025-02-23 收录

下载链接：

https://github.com/divakaivan/lolesports-voice-analytics

下载链接

链接失效反馈

官方服务：

资源简介：

Los Ratones游戏视频，从YouTube频道Nemesis 2获取，包含团队的实战训练视频。

This dataset comprises Los Ratones game videos sourced from the YouTube channel Nemesis 2, which include the team's actual combat training videos.

创建时间：

2025-02-14

原始信息汇总

LoL Esports Voice Analytics 数据集概述

数据集简介

该数据集是关于《英雄联盟》电子竞技（LoLEsports）的语音通信分析项目，旨在通过分析公开的团队游戏中的语音通信，为队伍提供游戏策略和沟通效率的洞见。

问题陈述

在LoLEsports中，通信音频通常是私密的，仅由队伍和Riot Games持有，限制了分析至结构化数据如游戏内统计数据。近期，一支新成立的队伍开始公开分享他们的训练数据，使得基于AI的语音分析能够从非结构化音频中提取洞见，帮助队伍评估指挥、效率和策略。

机遇

最近成立的二线EMEA队伍Los Ratones现在在YouTube上公开分享完整的游戏内语音通信，这为开源AI工具的分析开发提供了新的机会，有利于队伍、分析师和粉丝。

主要目标

开发可视化工具和分析，揭示沟通模式和动态，为Los Ratones提供改进游戏玩法的有力见解。
分析电子竞技训练的音频，以确定团队沟通的强项和改进领域，使决策和游戏内策略更加精准。

次要目标

通过分享来自多说话人、动态环境的音频数据处理流程，为开源语音AI社区做出贡献，助力语音识别模型的开发。
设置一个从YouTube提取和转换原始音频数据的流程，为电子竞技队伍搭建自己的流程提供指导。

数据模型

Audio：从视频中提取，存储技术属性，并与游戏转录关联以便进一步分析。
Game Transcription：包括从音频生成的文本、总结、清晰度级别和热度指标。
Video：包含团队游戏内通信的YouTube视频。
Team：代表Lolesports团队，链接到玩家名称和他们所属的联赛。

数据来源

Los Ratones的游戏视频来自Nemesis 2 YouTube频道，该频道由一名玩家运营。Scrim视频通常每周上传3-4次，每次包含4-6场比赛。截至目前，已有33个scrim视频可用。
团队信息从LoL Fandom网站抓取，这是一个关于《英雄联盟》相关内容的维基网站。

技术栈

使用Airflow和Astronomer进行数据摄取。
使用Terraform部署Google Cloud Platform工具。
使用Google Cloud Storage作为数据湖存储非结构化数据。
使用Google BigQuery作为数据仓库存储团队信息和视频原始信息。
使用dbt与BigQuery交互，进行数据 refinement 和数据质量检查。
使用Streamlit自动部署可视化仪表板。

数据流程

提取与加载：音频文件和转录文件上传至Google Cloud Storage，视频元数据和转录元数据上载至BigQuery。
数据转换：使用dbt进行数据转换和DQ检查。

关键指标

指标	定义	范围	来源/备注
Communication Clarity	游戏中沟通的清晰度，表示理解难度	1 (低) to 5 (高)	AI生成评分
Communication Intensity	游戏中沟通的情感强度	1 (低) to 5 (高)	AI生成评分
Word Count	游戏中说话的词数，反映沟通量	整数计数	转录分析
Top Bigrams	转录中最频繁的两词组合，突出关键短语或主题	两词组合频率列表	NLP技术提取

仪表板

仪表板展示了概念验证和数据分析结果。

挑战

pytube包与YouTube API的稳定性问题。
更好的whisper转录模型需要更多内存。
OpenAI GPT需要API密钥和资金。

未来改进

利用音频的音量、音高等特征直接提取洞见。
使用代理服务器避免云环境中“检测到机器人”的错误。
使用更强大的机器加载更大模型或通过API调用。
改进清晰度和强度指标，使用专门训练的模型。
利用音频数据改进说话人识别模型。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要依托于YouTube频道Nemesis 2所提供的Los Ratones游戏视频，以及通过LoL Fandom网站爬取的团队信息。视频数据经过每日自动化的提取和加载，音频文件和转录文本存储在Google Cloud Storage中，并通过Google BigQuery进行 metadata 的存储和团队信息的整合。此外，使用dbt工具对数据进行进一步的转换和优化，以支持后续的分析和模型训练。

特点

此数据集的特点在于它是首个公开的团队游戏内语音通信数据，为开源AI工具分析团队沟通提供了新的机会。数据集包含了音频文件、游戏转录文本、视频元数据和团队信息，覆盖了多方面的游戏内沟通分析需求。此外，数据集还提供了针对语音清晰度、沟通强度和词汇量的关键指标，以及基于转录文本的词组频率分析，为团队沟通的质量和效率提供了量化的评估。

使用方法

用户可以通过访问GitHub仓库来获取数据集的详细使用说明。数据集的使用包括从Google Cloud Storage中下载数据，利用Google BigQuery进行数据分析，并通过dbt工具对数据进行转换和优化。此外，用户还可以访问部署的Streamlit仪表板来直观地查看和分析通信模式与动态。针对未来的研究，数据集还提供了模型训练和演讲者分离模型改进的潜力。

背景与挑战

背景概述

League of Legends电子竞技领域，团队沟通音频的分析一直受限，因为此类音频通常保持私密，仅由队伍和Riot Games持有。这导致分析多限于游戏内统计数据等结构化数据。近期，一支名为Los Ratones的二线EMEA队伍开始公开分享其全部训练数据，为开源社区提供了新的机遇。Los Ratones游戏视频数据集，由Nemesis 2 YouTube频道提供，该频道由队伍中的一名玩家运营，包含了公开的游戏内语音通信。此数据集的创建，旨在开发能够分析团队沟通的可视化和分析工具，以提升Los Ratones队伍的游戏表现，并对开源语音AI社区做出贡献，推动多人动态环境下的语音识别模型发展。

当前挑战

该数据集在构建过程中遇到了多重挑战。首先，从YouTube API提取数据时，pytube包频繁与API冲突，因为YouTube积极阻止机器人提取数据。此外，更高质量的语音转录模型需要更多内存，迫使我选择了较小的模型版本以适应内存限制，导致转录时间延长。同时，使用OpenAI GPT也需要API密钥和资金支持。在所解决的问题方面，该数据集面临的挑战包括：确保音频数据的准确转录，发展适用于多人在动态环境中沟通的语音识别模型，以及构建稳健的数据管道来处理和转换原始音频数据。

常用场景

经典使用场景

在电子竞技领域，尤其是《英雄联盟》电竞赛事中，团队沟通音频的分析一直受限。Los Ratones游戏视频数据集的公开，为AI驱动的语音分析提供了新的机会，使得从非结构化的音频中提取洞察成为可能，进而帮助团队评估指挥决策、效率与策略。该数据集的经典使用场景在于，通过分析团队在游戏中的沟通模式与动态，为Los Ratones队伍提供可操作的洞见，以提升他们的游戏表现。

解决学术问题

该数据集解决了长期以来电子竞技领域中，沟通音频数据难以获取和分析的问题。它不仅提供了丰富的音频和转录文本资源，还关联了游戏统计数据，使得研究者能够深入理解团队沟通对比赛结果的影响，为电子竞技领域的学术研究提供了新的视角和数据支持。

衍生相关工作

该数据集的公开不仅促进了电子竞技团队沟通分析工具的开源发展，还衍生了一系列相关工作，如语音识别、情感分析和说话人分割等模型的训练与优化，进一步推动了电子竞技数据分析领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集