Nos_Celtia-GL
收藏Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/proxectonos/Nos_Celtia-GL
下载链接
链接失效反馈官方服务:
资源简介:
Nos_Celtia-GL是一个加利西亚语单发音人TTS语料库,包含大约25个小时的语音数据,由20,000个短语组成,大约200,000个单词。语料库包括两个子集,一个由GTM和CRPIH创建,另一个由Nós项目从多领域文本编译而成。语料库由一位专业女性发音人在录音室中录制,数据集分为训练集和测试集,音频文件格式为16kHz 16-bit WAV。
创建时间:
2025-11-06
原始信息汇总
Nos_Celtia-GL 数据集概述
数据集基本信息
- 名称:Nos_Celtia-GL
- 语言:加利西亚语 (gl)
- 任务类别:文本到语音
- 许可证:CC-BY-4.0
- 标签:女性说话人
数据内容
- 类型:加利西亚语TTS单说话人语料库
- 时长:约25小时语音
- 文本规模:20,000个短语(约200,000词)
- 说话人:专业女性声音人才(Consuelo Díaz Isorna)
语料库构成
子语料库组成
-
GTM子语料库
- 句子数量:10,000
- 单词数量:121,726
- 句子长度:1-44词
- 文本类型:
- 新闻(书面)文本
- 手动设计的句子(疑问句、数字列表等)
-
Nós子语料库
- 句子数量:10,000
- 单词数量:99,622
- 句子长度:1-36词
- 文本类型分布:
- 21.8% 口语语篇转录
- 17.5% 词典定义
- 12.7% 议会演讲转录
- 20% 新闻广播转录
- 28% 短句(<4词)、疑问句、感叹句、祈使句和省略句
数据文件结构
文件分割
- 训练集:19,970个句子
- 测试集:30个句子
音频文件
- 格式:16kHz 16位WAV
- 命名规则:norm_nos_celtia_gl_XXXXX.wav(例如:norm_nos_celtia_gl_00001.wav)
- 存储结构:按分割存放在audio目录的子目录中
使用条款
- 使用限制:仅限研究目的和开发以语言为目标的人工智能工具
- 访问权限:与Centro Ramón Piñeiro de Investigación en Humanidades和Universidade de Santiago de Compostela合作项目的实体
- 传播限制:严禁以开放获取方式传播录音或公开曝光
- 数据保留:语音数据所有权已转移至圣地亚哥德孔波斯特拉大学,期限15年,自2037年11月30日起数据将被移除
联系信息
- 项目网站:https://nos.gal/
- 联系邮箱:proxecto.nos@usc.gal
引用信息
如需在研究中使用此数据,请引用: García Díaz, N., Vázquez Abuín, M., Magariños, C., Vladu, A.I., Moscoso Sánchez, A., Fernández Rei, E. (2024) Nos_Celtia-GL: an Open High-Quality Speech Synthtesis Resource for Galician. Proc. IberSPEECH 2024, 91-95, doi: 10.21437/IberSPEECH.2024-19
搜集汇总
数据集介绍
构建方式
在语音合成研究领域,高质量数据集的构建至关重要。Nos_Celtia-GL数据集通过整合两个子语料库精心构建:GTM子语料库包含多媒体技术组与拉蒙·皮涅罗人文研究中心合作创建的1万条语句,涵盖新闻文本和人工设计的特殊句式;Nós子语料库则从多领域文本中选取1万条语句,包含口语转录、词典定义和议会演讲等丰富类型。所有语音数据均在专业录音室环境下,由经过50余名参与者感知测试筛选的女性专业配音员录制,确保了语音质量的高度一致性。
特点
该数据集在语音资源领域展现出显著特色,其语音内容总时长约25小时,包含2万条语句约20万词汇量,兼具语音学和形态句法学的丰富性。音频文件采用16kHz采样率的16位WAV格式存储,文件命名遵循标准化规则,通过“norm_nos_celtia_gl_五位数字”的结构确保数据管理的系统性。特别值得注意的是,Nós子语料库经过严格的语言学审校,而GTM子语料库则保留原有语法规范,形成具有对比研究价值的平行语料资源。
使用方法
针对语音技术研究需求,该数据集已划分为训练集和测试集两个标准分割,其中训练集包含19,970条语句,测试集保留30条语句用于模型评估。研究人员可通过访问HuggingFace平台提交使用申请,在同意仅限于语言学目标的人工智能工具开发和研究用途的条款后获取数据。数据集采用知识共享署名4.0国际许可,但需特别注意语音数据具有使用期限,所有录音文件将在2037年11月30日后从官方存储中移除。
背景与挑战
背景概述
在低资源语言技术发展背景下,Nos_Celtia-GL作为加利西亚语语音合成数据集于2024年由圣地亚哥德孔波斯特拉大学与拉蒙·皮涅罗人文研究中心联合构建。该数据集聚焦解决语音合成领域对高质量、多领域语言覆盖的需求,通过融合GTM子库的新闻文本与人工设计句式,以及Nós子库的口语转录与多源文本,形成包含2万语句、约25小时专业录音的语音资源。其严格遵循语言规范与多机构协作模式,为罗曼语族数字资源建设提供了重要范式。
当前挑战
构建过程面临双重挑战:在领域问题层面需克服加利西亚语语音合成中韵律建模与音素覆盖的复杂性,特别是处理口语转录与书面语的声学特征差异;在技术实施中需协调多源文本的语法规范统一,同时通过专业听感测试从四位候选人中筛选发音人,并建立符合伦理标准的法律授权框架,确保在数据开放性与隐私保护间取得平衡。
常用场景
经典使用场景
在语音技术研究领域,Nos_Celtia-GL数据集主要应用于文本到语音合成系统的开发与优化。该数据集包含约25小时的高质量加利西亚语语音素材,涵盖新闻广播、议会演讲、词典定义等多领域文本,为构建自然流畅的语音合成模型提供了丰富的训练素材。其精心设计的语音平衡性和语言覆盖度使其成为开发加利西亚语TTS系统的理想基准数据集。
实际应用
在实际应用层面,Nos_Celtia-GL为加利西亚语地区的智能语音助手、有声读物制作和语言教育工具开发提供了关键技术支撑。其专业录制的语音素材可直接应用于公共服务领域的语音交互系统,如政府信息播报、教育机构的学习辅助工具等。这些应用不仅促进了加利西亚语在数字环境中的使用,也为保护语言多样性作出了实质性贡献。
衍生相关工作
基于该数据集已衍生出多项重要研究工作,其中最具代表性的是与CRPIH_UVigo-GL-Voices数据集形成的平行语料库研究。相关学者利用这一资源开展了加利西亚语语音合成的跨方言比较研究,并在IberSPEECH等国际会议上发表了系列成果。这些工作不仅拓展了少数民族语言处理的研究边界,也为后续的多语言语音技术开发提供了重要参考范式。
以上内容由遇见数据集搜集并总结生成



