css10-ja-ljspeech

Hugging Face2025-06-19 更新2025-06-20 收录

下载链接：

https://huggingface.co/datasets/ayousanz/css10-ja-ljspeech

下载链接

链接失效反馈

官方服务：

资源简介：

css100-ljspeech是基于CSS10的日本语语料库转换成LJ Speech格式的派生数据集，包含单个说话者的6841条语音样本，总时长约为15小时，采样率为22,050 Hz，语言为日语。

创建时间：

2025-06-15

原始信息汇总

CSS100-LJSpeech (Japanese / Meian) 数据集概述

基本描述

数据集名称: css100-ljspeech
许可证: Apache License 2.0
标签: audio, speech, tts, japanese, single-speaker
语言: 日语 (ja)
原始数据集: CSS10

数据概要

话者数量: 1 (ekzemplaro)
音频数量: 6,841
总时长: 约15小时
采样率: 22,050 Hz
文本语言: 日语
格式: id|text / wavs/{id}.wav

文件结构

css100-ljspeech/ ├── metadata.csv # 2 列 (id|text) └── wavs/ ├── meian_0000.wav ├── meian_0001.wav └── ...

使用示例

python from datasets import load_dataset, Audio

ds = load_dataset("your-username/css100-ljspeech", split="train", streaming=True) sample = next(iter(ds.cast_column("audio", Audio(sampling_rate=22050)))) print(sample["id"], sample["text"]) print(sample["audio"].keys()) # array, sampling_rate など

下载方式

sh huggingface-cli download ayousanz/css10-ja-ljspeech --repo-type dataset --local-dir path/to/download/ --local-dir-use-symlinks False

引用信息

bibtex @inproceedings{park2019css10, title={CSS10: A Collection of Single Speaker Speech Datasets for 10 Languages}, author={Park, Kyubyong and Mulc, Thomas}, booktitle={Proc. Interspeech}, year={2019} }

许可证说明

原始数据集: CSS10 (Apache License 2.0)
派生数据集: 同样采用 Apache-2.0 许可证
音频来源: LibriVox (包含公共领域音频)

搜集汇总

数据集介绍

构建方式

css100-ljspeech数据集源于Park等人发布的CSS10日语语料库，经过精心处理转化为LJ Speech兼容格式。该数据集通过将原始音频文件与对应文本进行配对，采用`id|text`的元数据结构和`wavs/*.wav`的音频文件组织方式，确保了数据的一致性和易用性。转换过程中保留了原始音频的22,050 Hz采样率，同时维持了单说话人（明暗）的语音特性，为日语语音合成研究提供了标准化资源。

特点

该数据集包含6,841条日语语音样本，总时长约15小时，具有单说话人、高采样率的特点。音频文件以22,050 Hz的采样率保存，确保了语音质量；文本部分为纯日语，格式简洁明了。数据集采用LJ Speech标准格式，便于与现有语音合成系统兼容。作为CSS10的派生版本，它既继承了原始数据的语言学价值，又通过格式优化提升了实用性，特别适合日语文本到语音（TTS）任务的模型训练与评估。

使用方法

使用Hugging Face的`datasets`库可便捷加载该数据集，通过`load_dataset`函数指定用户名和数据集名称即可获取。音频文件会自动解码为包含波形数组和采样率的字典结构。对于本地使用，可通过CLI工具下载完整数据集，并利用`metadata.csv`和`wavs`目录中的文件进行灵活访问。该数据集兼容主流语音处理框架，支持流式加载以节省内存，研究者可直接将其应用于声学模型训练、语音合成系统开发等场景，或作为基准数据集进行模型性能测试。

背景与挑战

背景概述

CSS100-LJSpeech日语数据集源于Park等人于2019年发布的CSS10多语言语音语料库，由研究者对原始日语子集（明暗）进行格式转换后形成。作为单说话人语音合成研究的重要资源，该数据集采用LJ Speech标准格式重构，包含6,841条采样率为22,050Hz的音频样本，总时长约15小时。其诞生顺应了跨语言语音合成技术发展的需求，为日语文本到语音（TTS）系统提供了高质量的基准数据，显著促进了非英语语音合成领域的研究进程。

当前挑战

该数据集主要应对日语语音合成系统中韵律建模和音素对齐的固有难题，日语复杂的音拍（mora）结构和高低音调（pitch accent）模式对声学模型提出更高要求。在构建过程中，原始音频与文本的对齐质量受限于LibriVox资源的录音环境差异，需通过信号处理技术消除背景噪声。格式转换时需保持元数据与音频文件的精确匹配，这对数据一致性和完整性保障构成技术挑战。

常用场景

经典使用场景

在语音合成技术的研究中，css100-ljspeech数据集因其标准化的格式和高质量的日语单说话人语音样本，成为开发文本到语音（TTS）系统的理想选择。该数据集广泛应用于训练端到端的神经语音合成模型，如Tacotron和WaveNet，这些模型依赖于大量对齐的文本和语音数据来生成自然流畅的语音输出。

衍生相关工作

基于css100-ljspeech数据集，研究者们开发了多种先进的语音合成模型和工具。例如，该数据集被用于训练和评估Tacotron 2和FastSpeech等经典语音合成模型。此外，该数据集还支持了多项关于日语语音合成的研究，如韵律建模和语音风格转换，推动了语音合成技术的多样化和个性化发展。

数据集最近研究