five

ASMR-Archive-Processed

收藏
Hugging Face2025-06-22 更新2025-06-23 收录
下载链接:
https://huggingface.co/datasets/OmniAICreator/ASMR-Archive-Processed
下载链接
链接失效反馈
官方服务:
资源简介:
ASMR-Archive-Processed是一个包含了经过预处理的ASMR音频数据的数据集,适用于教育和学术研究。数据来源于两个asmr数据集,经过过滤、格式转换、噪声移除、声音分离、响度标准化、转录和转录优化等步骤处理。数据集以WebDataset格式提供,每个音频段包含FLAC音频文件、JSON元数据文件和文本转录文件。
创建时间:
2025-06-21
原始信息汇总

ASMR-Archive-Processed 数据集概述

基本信息

  • 许可证: AGPL-3.0
  • 任务类别: 自动语音识别、文本转语音
  • 语言: 日语
  • 标签: 语音、音频、日语、ASMR、动漫、声音
  • 数据集名称: ASMR-Archive-Processed (WIP)

数据集来源

预处理步骤

  1. 低质量数据过滤

    • 过滤不良编解码器
    • 移除短于12秒的音频
    • 移除低于22,050 Hz的采样率
    • 检查损失编解码器的比特率
  2. 格式统一与转换

    • 转换为44.1 kHz采样率、24位深度、立体声FLAC格式
  3. 背景噪音去除/人声分离

    • 使用python-audio-separator库
    • 模型: MelBand Roformer | Big Beta 6X by unwa
  4. 响度标准化

    • 使用ffmpeg的2-pass loudnorm滤波器
    • 目标参数: -23.0 LUFS、-1.0 dB真峰值、11.0 LU响度范围
  5. 语音活动检测(VAD)/音频分割

    • 使用Silero-VAD
    • 检测阈值设置为较宽松
  6. 转录

    • 使用litagin/anime-whisper模型
  7. 基于LLM的转录优化

    • 使用google/gemini-2.5-flash模型
    • 进行多项完整性检查
  8. 数据洗牌、匿名化和WebDataset转换

    • 洗牌数据并哈希唯一标识符
    • 转换为WebDataset格式

数据集格式

  • 格式: WebDataset

  • 文件结构:

    • .flac: FLAC音频文件
    • .json: JSON元数据文件
    • .txt: 文本转录文件
  • 元数据内容:

    • 唯一标识符、持续时间、NSFW标志
    • 原始和处理后的音频参数
    • 响度标准化报告
    • 原始转录文本

许可证与使用

  • 许可证: AGPLv3
  • 用途: 教育和学术研究
  • 免责声明: 数据集按"原样"提供,不提供任何明示或暗示的保证
搜集汇总
数据集介绍
main_image_url
构建方式
ASMR-Archive-Processed数据集通过多阶段预处理流程构建而成,原始数据来源于两个公开的ASMR音频档案。构建过程中首先实施了严格的质量筛选,剔除了低比特率、短时长及低采样率的音频样本。随后采用标准化处理将所有音频统一转换为44.1kHz/24bit立体声FLAC格式,并运用MelBand Roformer模型进行人声分离与降噪处理。通过Silero-VAD系统实现语音活动检测与分段,结合Whisper模型进行日语文转写,最后利用Gemini大语言模型对转写文本进行语义修正与风格优化。所有数据经过匿名化处理后,以WebDataset格式进行封装存储,每个样本包含标准化音频、元数据及精修文本三个关联文件。
特点
该数据集最显著的特征在于其专业级的音频处理质量,所有样本均经过响度标准化处理,达到-23LUFS的国际广播标准。数据集中包含丰富的元信息标注,涵盖原始编码参数、处理过程参数以及详细的响度分析报告。文本转录部分不仅保留原始ASR结果,还包含经过大语言模型优化后的自然语言版本,有效提升了语音文本的对齐质量。数据组织采用WebDataset格式,支持高效流式读取,每个压缩包包含1024个完整样本单元,便于分布式训练场景下的数据加载。
使用方法
研究者可通过加载WebDataset格式的压缩包直接访问处理后的数据,每个样本单元由同名的FLAC音频、JSON元数据及TXT文本文件构成。音频文件适用于语音合成模型的训练,其标准化的响度特性可显著降低数据预处理复杂度。文本数据包含原始与精修双版本转录,特别适合开发日语音频对齐算法或构建语音合成语料库。元数据中标注的NSFW标签可用于内容过滤,而详细的音频参数则为声学特征分析提供了可靠依据。需要注意的是,使用时应遵守AGPLv3许可协议,且数据集主要面向学术研究用途。
背景与挑战
背景概述
ASMR-Archive-Processed数据集由DeliberatorArchiver团队构建,专注于日语ASMR音频数据的收集与处理。该数据集源自asmr-archive-data-01和asmr-archive-data-02两个原始数据集,经过多步骤预处理后形成统一格式的高质量语音语料库。其核心研究问题聚焦于如何从非结构化的ASMR音频中提取有效语音特征,并为自动语音识别(ASR)和文本转语音(TTS)任务提供标准化数据支持。该数据集特别关注动漫相关语音内容,填补了日语领域特定风格语音数据集的空白,对语音合成、情感计算等研究方向具有重要参考价值。
当前挑战
构建ASMR-Archive-Processed数据集面临多重技术挑战。在领域问题层面,ASMR音频特有的低声细语特征对传统语音识别系统构成挑战,其超低音量和高环境噪声容限要求特殊的音频增强处理。数据构建过程中,团队需解决原始数据质量参差不齐的问题,包括不同采样率、位深度和编解码器的标准化转换。语音分离环节需要平衡背景噪声消除与语音保真度,而基于Silero-VAD的分割算法需适应ASMR特有的舒缓节奏。转录阶段面临日语口语化表达和动漫专用术语的识别难题,后期LLM精修还需防范生成式模型常见的语义扭曲问题。此外,数据集还需在数据效用与日本著作权法合规之间寻求平衡。
常用场景
经典使用场景
在语音处理和音频分析领域,ASMR-Archive-Processed数据集因其高质量的预处理流程而成为研究者的重要工具。该数据集广泛应用于自动语音识别(ASR)和文本到语音(TTS)系统的训练与评估,特别是在日语语境下。其经典使用场景包括对ASMR音频的语音特征提取、情感分析以及语音合成模型的优化。通过提供标准化的音频格式和精确的文本转录,该数据集为研究者提供了一个可靠的基准。
衍生相关工作
围绕ASMR-Archive-Processed数据集,已衍生出多项经典研究工作。例如,基于其语音分离技术的研究成果被应用于音乐信息检索(MIR)领域,提升了乐器与人声的分离效果。此外,该数据集的转录修正流程启发了多语言ASR系统的优化方法,相关论文在顶级学术会议上发表。其开源预处理脚本也被广泛引用,成为音频数据处理的参考标准。
数据集最近研究
最新研究方向
在音频处理与语音技术领域,ASMR-Archive-Processed数据集因其高质量的预处理流程和丰富的日语ASMR音频资源,成为研究的热点。该数据集的最新研究方向主要集中在自动语音识别(ASR)和文本到语音(TTS)技术的优化上,特别是在日语语境下的应用。前沿研究利用该数据集探索背景噪声去除、语音分离和转录精度的提升,结合先进的深度学习模型如MelBand Roformer和Silero-VAD,显著提高了语音处理的准确性和自然度。此外,该数据集还被用于研究情感语音合成和个性化语音生成,为虚拟偶像和动漫配音等应用提供了重要支持。其匿名化和版权合规的设计也为学术研究提供了法律保障,推动了语音技术在娱乐和教育领域的创新应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作