Shore-Lunch-Box

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/PoTaTo721/Shore-Lunch-Box

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含中文方言专辑的数据集，用于文本到语音的任务。数据集包含东北话和闽南话的多个专辑，每个专辑都有相应的转录信息。转录信息可能不完全对齐，并且文件名可能需要从绝对路径中提取。方言的标注使用了dolphin工具，但结果可能需要进一步处理。

创建时间：

2025-07-25

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-sa-4.0
任务类别: 文本转语音 (text-to-speech)
语言: 中文 (zh)

方言专辑时长

东北话

趣说聊斋: 25.18小时
东北出马仙: 96.54小时

闽南话

闽南话绘本有声读物: 7.59小时
趣说闽南建筑: 10.39小时

数据集注意事项

转录内容保存在每个专辑的transcription中，对齐不完全。
transcription.json的key可能是文件名或奇怪的路径和文件名，需用"/"分割取最后一个作为文件名。
方言标注使用dolphin，输出内容需自行清理ASR结果。

引用

bibtex @misc{cheng2025mikupalautomatedstandardizedmultimodal, title={MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling}, author={Yifan Cheng and Ruoyi Zhang and Jiatong Shi}, year={2025}, eprint={2505.15772}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2505.15772}, }

搜集汇总

数据集介绍

构建方式

在方言语音资源稀缺的背景下，Shore-Lunch-Box数据集通过系统采集多方言音频内容构建而成。其音频素材源自东北话与闽南话的有声读物及专题节目，采用自动化语音识别技术生成初始转录文本，并通过绝对路径关联音频文件与文本数据。尽管转录结果存在未完全对齐的情况，但数据集仍保留了原始语言特征与方言多样性。

使用方法

使用者可通过解析transcription.json文件中的绝对路径获取音频与文本对应关系，建议以路径分隔符提取文件名进行匹配。因转录结果存在未对齐现象，需自行优化对齐流程或清理ASR输出。该数据集适用于方言语音合成、语音识别及多模态语言分析等任务，建议引用相关论文以遵循学术规范。

背景与挑战

背景概述

方言语音数据集Shore-Lunch-Box由研究团队于2025年构建，主要贡献者包括Yifan Cheng、Ruoyi Zhang和Jiatong Shi等人。该数据集聚焦于汉语方言的语音合成与识别研究，涵盖东北话与闽南话等多种方言变体，总时长超过200小时。其核心目标在于推动方言语音资源的标准化与多模态分析，为语音技术中的方言多样性保护与跨方言交流提供关键数据支撑，对计算语言学与语音信息处理领域具有重要影响。

当前挑战

该数据集旨在解决方言语音合成与识别中的资源稀缺问题，挑战包括方言音系复杂性导致的语音对齐困难、方言标注的标准化缺失以及跨方言语音模型泛化能力不足。构建过程中面临转录对齐不精确、文件路径命名混乱以及自动语音识别结果噪声较多等具体技术障碍，需进一步的数据清洗与结构化处理以提升可用性。

常用场景

经典使用场景

在方言语音合成研究中，Shore-Lunch-Box数据集为跨方言语音转换提供了关键支撑。其包含东北话与闽南话两大方言群的音频及转录数据，研究者可基于此构建方言音素对齐模型，探索方言间声学特征的映射规律。该数据集尤其适用于训练多方言文本转语音系统，助力方言语音合成技术的性能提升。

解决学术问题

该数据集有效解决了方言语音资源匮乏导致的学术研究瓶颈，为方言语音识别与合成提供了标准化数据基础。通过提供大规模方言音频与转录对照，支持方言音系学分析、跨方言语音转换模型构建，以及低资源方言语音技术研究，显著推进了计算语言学与语音技术在多方言场景下的融合发展。

实际应用

实际应用中，该数据集可服务于智能语音助手的方言适配，使语音交互系统能够理解并生成特定方言语音，提升地域用户体验。同时，在文化遗产数字化保护领域，该数据集为方言有声读物制作和方言教学工具开发提供了数据支持，助力方言的活态传承与技术化保存。

数据集最近研究