ASMR-Archive-Processed

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/OmniAICreator/ASMR-Archive-Processed

下载链接

链接失效反馈

官方服务：

资源简介：

ASMR-Archive-Processed是一个包含了经过预处理的ASMR音频数据的数据集，适用于教育和学术研究。数据来源于两个asmr数据集，经过过滤、格式转换、噪声移除、声音分离、响度标准化、转录和转录优化等步骤处理。数据集以WebDataset格式提供，每个音频段包含FLAC音频文件、JSON元数据文件和文本转录文件。

创建时间：

2025-06-21

原始信息汇总

ASMR-Archive-Processed 数据集概述

基本信息

许可证: AGPL-3.0
任务类别: 自动语音识别、文本转语音
语言: 日语
标签: 语音、音频、日语、ASMR、动漫、声音
数据集名称: ASMR-Archive-Processed (WIP)

数据集来源

原始数据集: DeliberatorArchiver/asmr-archive-data-01 和 DeliberatorArchiver/asmr-archive-data-02

预处理步骤

低质量数据过滤
- 过滤不良编解码器
- 移除短于12秒的音频
- 移除低于22,050 Hz的采样率
- 检查损失编解码器的比特率
格式统一与转换
- 转换为44.1 kHz采样率、24位深度、立体声FLAC格式
背景噪音去除/人声分离
- 使用python-audio-separator库
- 模型: MelBand Roformer | Big Beta 6X by unwa
响度标准化
- 使用ffmpeg的2-pass loudnorm滤波器
- 目标参数: -23.0 LUFS、-1.0 dB真峰值、11.0 LU响度范围
语音活动检测(VAD)/音频分割
- 使用Silero-VAD
- 检测阈值设置为较宽松
转录
- 使用litagin/anime-whisper模型
基于LLM的转录优化
- 使用google/gemini-2.5-flash模型
- 进行多项完整性检查
数据洗牌、匿名化和WebDataset转换
- 洗牌数据并哈希唯一标识符
- 转换为WebDataset格式

数据集格式

格式: WebDataset
文件结构:
- .flac: FLAC音频文件
- .json: JSON元数据文件
- .txt: 文本转录文件
元数据内容:
- 唯一标识符、持续时间、NSFW标志
- 原始和处理后的音频参数
- 响度标准化报告
- 原始转录文本

许可证与使用

许可证: AGPLv3
用途: 教育和学术研究
免责声明: 数据集按"原样"提供，不提供任何明示或暗示的保证

搜集汇总

数据集介绍

构建方式

ASMR-Archive-Processed数据集通过多阶段预处理流程构建而成，原始数据来源于两个公开的ASMR音频档案。构建过程中首先实施了严格的质量筛选，剔除了低比特率、短时长及低采样率的音频样本。随后采用标准化处理将所有音频统一转换为44.1kHz/24bit立体声FLAC格式，并运用MelBand Roformer模型进行人声分离与降噪处理。通过Silero-VAD系统实现语音活动检测与分段，结合Whisper模型进行日语文转写，最后利用Gemini大语言模型对转写文本进行语义修正与风格优化。所有数据经过匿名化处理后，以WebDataset格式进行封装存储，每个样本包含标准化音频、元数据及精修文本三个关联文件。

特点

该数据集最显著的特征在于其专业级的音频处理质量，所有样本均经过响度标准化处理，达到-23LUFS的国际广播标准。数据集中包含丰富的元信息标注，涵盖原始编码参数、处理过程参数以及详细的响度分析报告。文本转录部分不仅保留原始ASR结果，还包含经过大语言模型优化后的自然语言版本，有效提升了语音文本的对齐质量。数据组织采用WebDataset格式，支持高效流式读取，每个压缩包包含1024个完整样本单元，便于分布式训练场景下的数据加载。

使用方法

研究者可通过加载WebDataset格式的压缩包直接访问处理后的数据，每个样本单元由同名的FLAC音频、JSON元数据及TXT文本文件构成。音频文件适用于语音合成模型的训练，其标准化的响度特性可显著降低数据预处理复杂度。文本数据包含原始与精修双版本转录，特别适合开发日语音频对齐算法或构建语音合成语料库。元数据中标注的NSFW标签可用于内容过滤，而详细的音频参数则为声学特征分析提供了可靠依据。需要注意的是，使用时应遵守AGPLv3许可协议，且数据集主要面向学术研究用途。

背景与挑战

背景概述

ASMR-Archive-Processed数据集由DeliberatorArchiver团队构建，专注于日语ASMR音频数据的收集与处理。该数据集源自asmr-archive-data-01和asmr-archive-data-02两个原始数据集，经过多步骤预处理后形成统一格式的高质量语音语料库。其核心研究问题聚焦于如何从非结构化的ASMR音频中提取有效语音特征，并为自动语音识别（ASR）和文本转语音（TTS）任务提供标准化数据支持。该数据集特别关注动漫相关语音内容，填补了日语领域特定风格语音数据集的空白，对语音合成、情感计算等研究方向具有重要参考价值。

当前挑战

构建ASMR-Archive-Processed数据集面临多重技术挑战。在领域问题层面，ASMR音频特有的低声细语特征对传统语音识别系统构成挑战，其超低音量和高环境噪声容限要求特殊的音频增强处理。数据构建过程中，团队需解决原始数据质量参差不齐的问题，包括不同采样率、位深度和编解码器的标准化转换。语音分离环节需要平衡背景噪声消除与语音保真度，而基于Silero-VAD的分割算法需适应ASMR特有的舒缓节奏。转录阶段面临日语口语化表达和动漫专用术语的识别难题，后期LLM精修还需防范生成式模型常见的语义扭曲问题。此外，数据集还需在数据效用与日本著作权法合规之间寻求平衡。

常用场景

经典使用场景

在语音处理和音频分析领域，ASMR-Archive-Processed数据集因其高质量的预处理流程而成为研究者的重要工具。该数据集广泛应用于自动语音识别（ASR）和文本到语音（TTS）系统的训练与评估，特别是在日语语境下。其经典使用场景包括对ASMR音频的语音特征提取、情感分析以及语音合成模型的优化。通过提供标准化的音频格式和精确的文本转录，该数据集为研究者提供了一个可靠的基准。

衍生相关工作

围绕ASMR-Archive-Processed数据集，已衍生出多项经典研究工作。例如，基于其语音分离技术的研究成果被应用于音乐信息检索（MIR）领域，提升了乐器与人声的分离效果。此外，该数据集的转录修正流程启发了多语言ASR系统的优化方法，相关论文在顶级学术会议上发表。其开源预处理脚本也被广泛引用，成为音频数据处理的参考标准。

数据集最近研究