Lahjoita puhetta speech corpus|口语语料库数据集|语言测试数据集

github2022-09-22 更新2024-05-31 收录

口语语料库

语言测试

下载链接：

https://github.com/aalto-speech/lahjoita-puhetta-resources

下载链接

链接失效反馈

资源简介：

Lahjoita puhetta是一个大规模的芬兰口语语料库，包含了一些基准测试。

创建时间：

2021-12-22

原始信息汇总

Lahjoita puhetta 数据集概述

数据集描述

名称: Lahjoita puhetta 语音语料库
描述: 该数据集是关于芬兰语口语的大型语料库，详细描述见论文 Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks。

数据集下载

下载链接: Kielipankki 提供的下载链接

相关资源

ASR 系统:
- 类型: 混合 HMM/DNN ASR 系统
- 构建工具: Kaldi
- 训练脚本: GitHub 链接
- 训练模型下载: Zenodo 链接
半监督 ASR 系统:
- 数据使用: 100小时转录数据和1600小时未转录数据
- 训练脚本: GitHub 链接
- 训练模型下载: Zenodo 链接
AED 配方:
- 资源链接: SpeechBrain AED 配方 GitHub 链接
Wav2Vec2 CTC 微调:
- 配方链接: Lahjoita puhetta Wav2Vec2 配方 GitHub 链接
- 训练模型下载: Zenodo 链接
元数据分类:
- 分类项目链接: Lahjoita puhetta 元数据分类 GitHub 链接
- 训练模型下载: Zenodo 链接

AI搜集汇总

数据集介绍

构建方式

Lahjoita puhetta语音语料库的构建依托于大规模的芬兰语口语数据收集活动，通过公开的捐赠活动获取了丰富的语音样本。这些数据经过专业转录和标注，确保了语料库的高质量和多样性。语料库的构建过程中，采用了混合HMM/DNN自动语音识别系统，结合了100小时的转录数据和1600小时的未转录数据，进一步提升了数据的可用性和代表性。

特点

Lahjoita puhetta语料库以其大规模和多样性著称，涵盖了广泛的芬兰语口语场景。语料库不仅包含高质量的转录数据，还提供了丰富的元数据分类，便于研究者进行多维度分析。此外，语料库还提供了基于Kaldi和SpeechBrain的多种基线模型，支持自动语音识别和语音分类任务，为语音技术研究提供了坚实的基础。

使用方法

Lahjoita puhetta语料库的使用方法灵活多样，研究者可以通过Kielipankki平台直接下载语料库数据。语料库提供了多种基线模型的训练脚本和预训练模型，支持基于Kaldi和SpeechBrain的自动语音识别任务。此外，语料库还提供了Wav2Vec2模型的微调方案，便于研究者进行端到端的语音识别实验。通过丰富的文档和示例代码，用户可以快速上手并应用于实际研究。

背景与挑战

背景概述

Lahjoita puhetta语音语料库是由芬兰阿尔托大学（Aalto University）的研究团队开发的大规模芬兰语口语数据集，旨在推动芬兰语语音识别领域的研究。该语料库的创建时间可追溯至2022年，相关研究成果发表在《Language Resources and Evaluation》期刊上。语料库的构建基于‘Lahjoita puhetta’（捐赠语音）活动，通过众包方式收集了大量真实场景下的芬兰语语音数据。该数据集不仅为芬兰语语音识别系统的开发提供了丰富的训练资源，还为多语言语音技术的研究提供了重要的参考。其影响力不仅限于芬兰语社区，还为低资源语言的语音技术研究提供了宝贵的经验。

当前挑战

Lahjoita puhetta语料库在解决芬兰语语音识别问题时面临多重挑战。首先，芬兰语作为一种形态复杂的语言，其丰富的词形变化和语法结构对语音识别系统的准确性提出了较高要求。其次，语料库的构建过程中，如何有效处理大量未标注数据以提升半监督学习的效果，是一个关键的技术难题。此外，数据集的多样性和质量控制也面临挑战，尤其是在众包模式下，如何确保语音数据的清晰度、背景噪声的抑制以及说话人身份的匿名化处理，都需要精细的技术支持。这些挑战不仅影响了数据集的构建效率，也对后续语音识别模型的性能优化提出了更高的要求。

常用场景

经典使用场景

Lahjoita puhetta语音语料库广泛应用于芬兰语的自动语音识别（ASR）系统的开发与优化。该数据集通过提供大量标注和未标注的语音数据，支持混合HMM/DNN模型的训练，为研究人员提供了一个标准化的基准测试平台。特别是在半监督学习场景中，该数据集通过结合100小时的标注数据和1600小时的未标注数据，显著提升了模型的泛化能力。

解决学术问题

Lahjoita puhetta语料库解决了芬兰语语音识别领域数据稀缺的问题，为学术界提供了一个高质量、大规模的多模态语音数据集。通过该数据集，研究人员能够深入探索低资源语言的语音识别技术，尤其是在半监督学习和自监督学习框架下的模型优化。此外，该数据集还为语音识别模型的跨领域迁移学习提供了实验基础，推动了语音技术在低资源语言中的应用。

衍生相关工作

Lahjoita puhetta语料库催生了一系列经典研究工作，包括基于Kaldi的混合HMM/DNN系统、基于SpeechBrain的AED模型以及基于Wav2Vec2的自监督学习模型。这些工作不仅推动了芬兰语语音识别技术的发展，还为其他低资源语言的语音识别研究提供了重要的参考。此外，该数据集还支持了元数据分类任务的研究，进一步扩展了其在语音技术领域的应用范围。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50，OTB100，VOT2014，VOT2015，TC128和ALOV300) 中的视频本质上不同。因此，我们提出了一个新的数据集 (UAV123)，其序列来自空中视点，其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧，使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外，请注意，文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例，涵盖多种类型的演绎推理。结果表明，最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录