Alvenir/alvenir_asr_da_eval

收藏

Hugging Face2025-05-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Alvenir/alvenir_asr_da_eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Alvenir创建，旨在评估丹麦语的自动语音识别（ASR）模型，也可用于训练，但数据量有限。数据集包含.wav文件和对应的参考文本，数据量略超过5小时，来自50名年龄在20至60岁之间的说话者。数据通过第三方供应商的软件和人员收集，并经过验证。

提供机构：

Alvenir

原始信息汇总

数据集概述

数据集描述

数据集总结

创建者：Alvenir
目的：评估丹麦语的自动语音识别（ASR）模型
包含内容：.wav音频文件及其对应的参考文本
数据量：约5小时，涵盖50名年龄在20至60岁之间的说话者
数据来源：第三方供应商通过其软件和人收集，所有录音均已验证

数据集结构

数据实例

组成：音频文件路径及其对应的句子
未来可能添加的额外信息：年龄和性别

数据字段

音频：包含音频文件路径、解码后的音频数组和采样率
句子：用户被提示说的句子

数据分割

用途：作为丹麦语ASR的测试/评估数据集
分割方式：仅包含测试分割

数据集创建

提示/句子选择

来源：丹麦语的开源字幕（OSS）和维基百科（WIKI）
选择方法：OSS随机抽样确保所有提示唯一；WIKI通过训练30个主题的模型后，从每个主题随机抽样等量的唯一句子
所有句子均经过人工检查

录音

参与者：50名独特说话者
录音内容：每人发送20个WIKI句子和60个OSS句子
录音方式：通过第三方录音软件进行

评估

评估方式：第三方确认音频与文本的对齐

个人和敏感信息

使用协议：不得尝试确定数据集中任何说话者的身份

许可信息

许可类型：cc-by-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作