MaSS
收藏arXiv2020-02-26 更新2024-06-21 收录
下载链接:
https://github.com/getalp/mass-dataset
下载链接
链接失效反馈官方服务:
资源简介:
MaSS数据集是由法国格勒诺布尔-阿尔卑斯大学的研究团队创建的一个大规模、干净的多语言句子对齐口语语料库。该数据集基于圣经文本,涵盖了8种语言(巴斯克语、英语、芬兰语、法语、匈牙利语、罗马尼亚语、俄语和西班牙语),共包含8160个平行口语语句,适用于多种语言学研究,如语音对齐和翻译。数据集的创建过程涉及自动化的语音到文本和语音到语音的对齐技术,并通过人工评估确保了数据质量。MaSS数据集的应用领域广泛,包括自动语音识别、语音到语音翻译和语音检索等,旨在解决多语言环境下的语音处理问题。
提供机构:
法国格勒诺布尔-阿尔卑斯大学
创建时间:
2019-07-30



