five

TTRPG 音频数据集

收藏
arXiv2025-02-18 更新2025-02-27 收录
下载链接:
https://github.com/LiRem101/playing-with-voices
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由从YouTube上选取的英语TTRPG游戏活动视频的音频文件组成的。数据集包含了21个音频文件,共计约8.5小时的音频,其中包括战斗场景和角色扮演场景。数据集的创建目的是为了评估和推进话者分割系统在面对角色扮演时 voice conversion 的挑战。

This dataset comprises audio files extracted from English TTRPG gameplay videos sourced from YouTube. It contains 21 audio files with a total duration of approximately 8.5 hours, covering both combat scenarios and role-playing scenarios. The dataset was developed to evaluate and advance speaker diarization systems in tackling the challenges posed by voice conversion within role-playing contexts.
提供机构:
杜塞尔多夫 Heinrich Heine 大学
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
构建方式
TTRPG音频数据集的构建始于2023年8月,通过从YouTube上提取英语桌面角色扮演游戏(TTRPG)活动的音频文件。为了确保数据的多样性和质量,研究者选择了具有手动添加字幕的视频,并从中提取了时长为一小时的战斗和角色扮演场景。这些音频文件被用于创建数据集,并通过手动校对和强制对齐技术来生成标注,为语音分割和说话人识别任务提供了基准。
特点
TTRPG音频数据集的特点在于其包含了角色扮演对话中特有的语音转换现象,即玩家在扮演不同角色时改变自己的声音。这种特性使得说话人分割任务更具挑战性,因为系统需要能够识别出即使在模仿其他角色时,真正的说话人是谁。此外,TTRPG数据集的音频质量、说话人数量和对话内容的复杂性也为语音处理系统提供了新的挑战。
使用方法
使用TTRPG音频数据集时,研究者可以将其与其他公开的说话人分割数据集(如AMI和ICSI语料库)进行比较,以评估和改进说话人分割系统的性能。此外,该数据集还可以用于训练和评估语音处理系统,以提高其在面对语音转换、重叠语音等挑战时的鲁棒性。
背景与挑战
背景概述
在语音处理领域,说话人分离和识别技术取得了长足的进步,特别是在深度学习技术的推动下。然而,现有的数据集往往无法涵盖所有现实世界的语音场景,尤其是在涉及语音转换的对话中。为此,研究人员Lian Remme和Kevin Tang于2023年提出了一个名为TTRPG的音频数据集,旨在解决说话人分离系统在语音转换场景下的挑战。该数据集由桌游录音组成,参与者通常会改变他们的声音来模拟虚构角色,这为说话人分离系统带来了额外的困难。该数据集的创建和比较实验为说话人分离系统在处理语音转换场景下的性能提供了重要的参考。
当前挑战
TTRPG音频数据集的挑战主要体现在以下几个方面:1)语音转换:参与者改变声音模拟虚构角色的特性,使得说话人分离系统难以区分真实说话人和模仿者;2)多说话人:桌游通常由多个参与者进行对话,且经常出现语音重叠的情况,这增加了说话人分离的难度;3)数据集构建:TTRPG数据集的构建过程中,由于使用字幕和强制对齐方法,导致部分语音片段未被正确标注,影响了说话人分离系统的性能评估。此外,数据集中缺乏对说话人年龄、性别和语音艺术家技能的标注,也可能影响说话人分离系统的训练和评估。
常用场景
经典使用场景
TTRPG音频数据集被广泛用于评估语音分割系统的性能。该数据集包含了许多玩家在桌面角色扮演游戏中的对话录音,玩家们经常改变自己的声音来模拟不同的角色。这种特性使得TTRPG音频数据集成为评估语音分割系统在处理模拟声音方面的性能的绝佳工具。
解决学术问题
TTRPG音频数据集解决了语音分割系统在处理模拟声音方面的难题。由于玩家在游戏中经常改变自己的声音来模拟不同的角色,这给语音分割系统带来了挑战。TTRPG音频数据集的出现为研究人员提供了一个评估语音分割系统在处理模拟声音方面的性能的平台。
衍生相关工作
TTRPG音频数据集的提出引发了相关领域的研究热潮。一些研究人员开始探索如何利用TTRPG音频数据集来改进语音分割系统,例如,通过引入更多的语音特征来提高系统的性能。此外,还有一些研究人员开始探索如何将TTRPG音频数据集应用于其他领域,例如语音识别和语音合成等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作