css10-ja-ljspeech
收藏CSS100-LJSpeech (Japanese / Meian) 数据集概述
基本描述
- 数据集名称: css100-ljspeech
- 许可证: Apache License 2.0
- 标签: audio, speech, tts, japanese, single-speaker
- 语言: 日语 (ja)
- 原始数据集: CSS10
数据概要
- 话者数量: 1 (ekzemplaro)
- 音频数量: 6,841
- 总时长: 约15小时
- 采样率: 22,050 Hz
- 文本语言: 日语
- 格式:
id|text/wavs/{id}.wav
文件结构
css100-ljspeech/ ├── metadata.csv # 2 列 (id|text) └── wavs/ ├── meian_0000.wav ├── meian_0001.wav └── ...
使用示例
python from datasets import load_dataset, Audio
ds = load_dataset("your-username/css100-ljspeech", split="train", streaming=True) sample = next(iter(ds.cast_column("audio", Audio(sampling_rate=22050)))) print(sample["id"], sample["text"]) print(sample["audio"].keys()) # array, sampling_rate など
下载方式
sh huggingface-cli download ayousanz/css10-ja-ljspeech --repo-type dataset --local-dir path/to/download/ --local-dir-use-symlinks False
引用信息
bibtex @inproceedings{park2019css10, title={CSS10: A Collection of Single Speaker Speech Datasets for 10 Languages}, author={Park, Kyubyong and Mulc, Thomas}, booktitle={Proc. Interspeech}, year={2019} }
许可证说明
- 原始数据集: CSS10 (Apache License 2.0)
- 派生数据集: 同样采用 Apache-2.0 许可证
- 音频来源: LibriVox (包含公共领域音频)




