sukasuka-anime-vocal-dataset

github2023-12-06 更新2024-05-31 收录

下载链接：

https://github.com/Hecate2/sukasuka-vocal-dataset-builder

下载链接

链接失效反馈

资源简介：

根据字幕，从视频里抽取全部语音，然后手动按角色标注。该数据集用于PITS/VITS/Diffusion text-to-speech/SVC等模型训练。

Based on subtitles, all speech is extracted from the video and then manually annotated by character. This dataset is used for training models such as PITS/VITS/Diffusion text-to-speech/SVC.

创建时间：

2023-02-17

原始信息汇总

数据集概述

数据集内容

动漫视频与字幕：数据集包含动漫视频及其字幕，视频资源通过磁力链接提供，字幕资源来自特定网站，两者均带有相应的开源许可证。
音频文件：包括实验合成的音频文件（.mp3和.flac格式），用于模型训练。
元数据文件：meta.csv 用于记录文件名、角色和内容，需手动标注。

数据集构建与使用

构建步骤：
- 运行 get_voice_from_video_and_subtitles.py 提取音频。
- 手动标注 meta.csv 中的角色信息。
- 运行 divide_by_character.py 分割数据。
注意事项：
- 数据集包含非语音声音，需进一步清理以用于模型训练。
- 在贡献前，请先检查是否已有重复工作，避免资源浪费。

贡献指南

理想贡献者要求：
- 熟悉SukaSuka角色及其声音和性格。
- 理解AI模型训练和数据集构建的目的与方法。
- 熟悉.csv、.json等文本格式。
- 了解GitHub、Hugging Face等平台。
贡献任务：
- 验证和修正 meta.csv。
- 过滤非语音声音。
- 标记不适合训练的语音声音。

数据集来源

字幕：来自特定网站，遵循AGPLv3和CC BY-NC-SA 4.0许可证。
动漫视频：通过磁力链接提供，具体链接见文档。

AI搜集汇总

数据集介绍

构建方式

sukasuka-anime-vocal-dataset的构建过程依托于对动画视频和字幕文件的深度处理。通过Python脚本`get_voice_from_video_and_subtitles.py`，从视频中提取音频并与字幕同步，随后手动标注每个音频片段的角色和内容，最终通过`divide_by_character.py`脚本按角色分类。此外，数据集还包含了通过Demucs工具去除非人声噪音的进一步清理版本，确保了数据的纯净度。

使用方法

使用sukasuka-anime-vocal-dataset时，用户需首先将视频和字幕文件按照指定目录结构放置，随后运行`get_voice_from_video_and_subtitles.py`脚本提取音频并生成初始数据。接着，手动标注`meta.csv`文件中的角色和内容信息，最后运行`divide_by_character.py`脚本按角色分类数据。对于训练模型，建议使用经过清理的版本，以确保模型训练的效果。此外，数据集还支持用户通过贡献指南参与数据集的扩展和改进，进一步丰富了数据集的应用场景。

背景与挑战

背景概述

sukasuka-anime-vocal-dataset 是一个专注于动漫《末日时在做什么？有没有空？可以来拯救吗？》中角色语音的数据集，旨在为语音合成模型提供高质量的语音数据。该数据集由多位贡献者共同构建，包括亡絮开始·祖安钢琴师、喵る桑、camimo、Aya 和 mio 等。数据集的核心研究问题在于如何从动漫视频中提取并标注角色的语音片段，以便用于训练语音合成模型。该数据集在语音合成领域具有重要影响力，尤其是在动漫角色语音合成方面，为相关研究提供了宝贵的数据资源。

当前挑战

sukasuka-anime-vocal-dataset 面临的挑战主要集中在两个方面。首先，数据集的构建过程中需要从复杂的动漫视频中提取纯净的语音片段，并去除背景音乐和其他非语音噪声，这对音频处理技术提出了较高要求。其次，数据标注的准确性至关重要，尤其是角色语音的识别与分类，需要贡献者对动漫角色有深入了解，并具备一定的技术背景。此外，数据集的扩展与维护也面临挑战，如何确保数据的多样性和质量，同时避免重复劳动，是数据集持续发展的关键问题。

常用场景

经典使用场景

sukasuka-anime-vocal-dataset数据集在语音合成和自然语言处理领域具有广泛的应用。该数据集通过提取动画《末日时在做什么？有没有空？可以来拯救吗？》中的角色语音，结合字幕信息，构建了一个高质量的语音数据集。研究者可以利用该数据集训练语音合成模型，生成特定角色的语音，或进行语音识别和情感分析等任务。

解决学术问题

该数据集解决了语音合成领域中高质量角色语音数据稀缺的问题。通过提供经过标注的角色语音片段，研究者可以更精确地训练模型，生成符合角色特征的语音。此外，数据集还支持多语言字幕的语音对齐研究，为跨语言语音合成提供了实验基础。

实际应用

在实际应用中，sukasuka-anime-vocal-dataset可用于开发个性化的语音助手、游戏角色语音生成以及动画配音自动化工具。例如，游戏开发者可以利用该数据集生成特定角色的语音，增强游戏的沉浸感。此外，该数据集还可用于教育领域，帮助语言学习者通过动画角色语音进行发音练习。

数据集最近研究