five

LEMAS-Dataset-eval

收藏
Hugging Face2025-12-21 更新2025-12-22 收录
下载链接:
https://huggingface.co/datasets/LEMAS-Project/LEMAS-Dataset-eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是LEMAS (大规模可扩展多语言音频套件)的一部分,包含一个大规模的训练集(超过15万小时)和一个精心策划的评估集(每种语言500个话语),覆盖了10种语言(意大利语、葡萄牙语、西班牙语、法语、德语、越南语、印尼语、俄语、英语和中文),所有数据都有词级对齐。训练集通过过滤大规模对齐的音频-文本对构建,遵循语言和数据集特定的约束条件。评估集则通过过滤、修剪和排名对齐的音频-文本对构建。数据集提供了详细的统计信息,包括每种语言的话语数量、总时长、平均时长、总字符数、平均字符数、字符每秒、总词数、平均词数和词每秒等。
创建时间:
2025-12-21
原始信息汇总

LEMAS-Dataset-eval 数据集概述

数据集基本信息

  • 许可证: CC BY-SA 4.0
  • 支持语言: 意大利语 (it)、葡萄牙语 (pt)、西班牙语 (es)、法语 (fr)、德语 (de)、越南语 (vi)、印度尼西亚语 (id)、俄语 (ru)、英语 (en)、中文 (zh)
  • 任务类别: 文本转语音、自动语音识别
  • 规模类别: 1亿至10亿词元

数据集构成

该数据集是 LEMAS (大规模可扩展多语言音频套件) 的一部分,包含一个精选的评估集,涵盖10种语言,每种语言包含500条话语,均带有词级对齐信息。

数据字段

  • key: 唯一话语标识符;前两个字符表示语言ID
  • audio: MP3音频文件的相对路径(在评估集中,此键被重命名为“file_name”以兼容查看器)
  • dur: 音频时长(秒)
  • txt: 原始转录文本
  • align: 对齐信息,包含:
    • align.txt: 用于对齐的归一化文本
    • align.words: 词级时间戳和置信度分数列表

评估集构建方法

  • 通过过滤、修剪和排序对齐的音频-文本对构建。
  • 过滤规则:
    • 平均词级对齐分数 > 0.9
    • 对齐词数 > 5
    • 时长介于3至15秒之间
    • 句末静音被修剪至最多0.2秒
  • 选择方法:
    • 样本按 final_score = edge_gap × density_diff 排序
    • 其中 edge_gap = words[0].start + (dur - words[-1].end)
    • density_diff = |len(align_txt)/dur − global_mean_density|

评估集统计信息

语言 话语数 总时长 (分钟) 平均时长 (秒) 总字符数 平均字符数 字符/秒 总词数 平均词数 词/秒
it 500 44.22 5.306 40388 80.78 15.22 6599 13.20 2.49
fr 500 38.17 4.580 38098 76.20 16.64 6546 13.09 2.86
vi 500 36.74 4.409 28546 57.09 12.95 6727 13.45 3.05
pt 500 41.69 5.003 33343 66.69 13.33 5812 11.62 2.32
de 500 38.65 4.638 36571 73.14 15.77 5599 11.20 2.41
id 500 47.20 5.665 41026 82.05 14.49 6133 12.27 2.17
es 500 40.52 4.862 37075 74.15 15.25 6216 12.43 2.56
ru 500 40.24 4.828 33886 67.77 14.04 5138 10.28 2.13
en 500 67.46 8.095 62449 124.90 15.43 11325 22.65 2.80
zh 500 75.84 9.101 95669 191.34 21.02 18627 37.25 4.09

: 统计信息基于修剪后的音频和归一化对齐文本 (align.txt) 计算。

相关链接

  • 训练集地址: https://huggingface.co/datasets/LEMAS-Project/LEMAS-Dataset-train
  • 评估集地址: https://huggingface.co/datasets/LEMAS-Project/LEMAS-Dataset-eval
搜集汇总
数据集介绍
main_image_url
构建方式
在构建大规模多语言音频数据集的过程中,LEMAS评估集采用了精密的筛选与排序机制。该过程首先从大规模对齐的音频-文本对中提取候选样本,并施加严格的过滤规则:仅保留平均词级对齐置信度高于0.9、对齐词汇数量超过5个、音频时长介于3至15秒之间的样本,同时将句末静音修剪至最多0.2秒。随后,通过一个综合评分公式对合格样本进行排序,该公式综合考虑了音频边缘间隙与文本密度差异,最终从每种语言中遴选出500条最具代表性的话语,确保了评估集在语言覆盖与质量上的高度均衡。
特点
LEMAS评估集作为大规模可扩展多语言音频套件的重要组成部分,其核心特征体现在高质量与多语言覆盖上。数据集囊括了意大利语、葡萄牙语、西班牙语、法语、德语、越南语、印尼语、俄语、英语及中文共十种语言,每种语言均包含500条经过精心筛选的话语。每条样本不仅提供原始音频与转录文本,更附带了精确的词级时间戳对齐信息与置信度分数,这为语音合成与自动语音识别模型的细粒度评估提供了坚实基础。数据在时长、字符密度等统计维度上呈现出语言间的差异性,反映了真实语言使用的多样性。
使用方法
该数据集主要服务于语音技术研究,特别是多语言文本到语音合成与自动语音识别系统的评估任务。使用者可通过HuggingFace平台直接加载数据集,利用其提供的音频路径、转录文本及结构化对齐信息进行模型性能的量化分析。对于TTS研究,词级对齐信息可用于评估合成语音的韵律自然度与时间准确性;对于ASR研究,高精度的转录与对齐可作为评估识别准确率与词错误率的黄金标准。建议在跨语言模型比较或零样本语音任务中,将此评估集作为统一的基准测试平台。
背景与挑战
背景概述
在语音技术领域,多语言语音数据的稀缺性与质量参差不齐长期制约着语音识别与合成系统的泛化能力。LEMAS(大规模可扩展多语言音频套件)数据集由LEMAS项目组于近期构建,旨在通过提供覆盖意大利语、葡萄牙语、西班牙语、法语、德语、越南语、印尼语、俄语、英语及中文等十种语言的大规模对齐音频-文本对,推动多语言语音处理研究。该数据集不仅包含超过十五万小时的训练数据,还精心构建了每种语言五百条语句的评估集,所有样本均具备词级对齐信息,为跨语言语音模型训练与评估提供了标准化基准。其核心研究问题聚焦于如何利用高质量对齐数据提升语音识别与合成系统在多样化语言环境中的准确性与自然度,对促进语音技术的全球化应用具有显著影响力。
当前挑战
LEMAS数据集致力于解决多语言语音识别与文本转语音任务中的核心挑战,即如何在不同语言间实现高精度、鲁棒性的语音-文本对齐,并克服语言特性差异带来的建模困难。在构建过程中,研究团队面临多重技术挑战:首先,从海量原始音频中筛选出符合严格对齐质量要求的样本,需设计自适应阈值以平衡不同源数据集的对齐置信度;其次,确保音频时长、文本密度及静音间隔等参数满足语言特定的约束条件,以维持数据的一致性与可用性;此外,评估集的构建需通过精细的评分机制优选样本,以边缘间隙和密度差异等指标保障评估数据的代表性与公平性。这些挑战共同体现了在多语言环境下协调数据规模与质量所涉及的复杂权衡。
常用场景
经典使用场景
在语音技术领域,多语言语音合成与识别模型的评估是推动技术发展的关键环节。LEMAS-Dataset-eval作为一个精心策划的评估集,覆盖了意大利语、葡萄牙语、西班牙语、法语、德语、越南语、印尼语、俄语、英语和中文等十种语言,每种语言包含500条经过严格筛选的语音-文本对齐样本。该数据集最经典的使用场景在于为大规模多语言语音模型提供标准化、高质量的基准测试平台。研究人员利用其提供的精确词级时间戳和置信度分数,能够系统评估模型在不同语言环境下的语音识别准确率、合成自然度以及对语音边界的处理能力,从而推动跨语言语音技术的均衡发展。
实际应用
在实际应用层面,LEMAS-Dataset-eval为全球化的智能语音产品提供了至关重要的评估工具。随着语音助手、实时翻译系统和交互式教育平台在全球范围的部署,确保这些系统在多种语言环境下均能保持高精度与鲁棒性成为核心需求。该数据集使企业能够基于统一的评估标准,优化其语音识别引擎对不同口音和方言的适应性,提升语音合成在不同文化语境中的自然度与表现力。此外,它在辅助开发无障碍通信工具、多语言媒体内容自动生成等场景中也发挥着关键作用,切实推动了语音技术从实验室研究走向广泛的实际应用。
衍生相关工作
围绕LEMAS-Dataset-eval,已衍生出一系列重要的学术研究与技术实践。许多前沿的多语言语音识别与合成工作,如大规模预训练语音模型的跨语言微调与零样本迁移学习研究,均采用该数据集作为核心评估基准以验证其方法的有效性。同时,它促进了语音对齐算法与评估指标的改进工作,研究者利用其提供的精细时间戳信息开发了更鲁棒的对齐质量评估框架。在数据集构建方法论上,其严格的过滤规则与评分机制也为后续其他多模态或多语言数据集的构建提供了可借鉴的范式,推动了整个语音数据资源生态向更高质量、更标准化方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作