Alvenir/alvenir_asr_da_eval
收藏Hugging Face2025-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Alvenir/alvenir_asr_da_eval
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Alvenir创建,旨在评估丹麦语的自动语音识别(ASR)模型,也可用于训练,但数据量有限。数据集包含.wav文件和对应的参考文本,数据量略超过5小时,来自50名年龄在20至60岁之间的说话者。数据通过第三方供应商的软件和人员收集,并经过验证。
提供机构:
Alvenir
原始信息汇总
数据集概述
数据集描述
数据集总结
- 创建者:Alvenir
- 目的:评估丹麦语的自动语音识别(ASR)模型
- 包含内容:.wav音频文件及其对应的参考文本
- 数据量:约5小时,涵盖50名年龄在20至60岁之间的说话者
- 数据来源:第三方供应商通过其软件和人收集,所有录音均已验证
数据集结构
数据实例
- 组成:音频文件路径及其对应的句子
- 未来可能添加的额外信息:年龄和性别
数据字段
- 音频:包含音频文件路径、解码后的音频数组和采样率
- 句子:用户被提示说的句子
数据分割
- 用途:作为丹麦语ASR的测试/评估数据集
- 分割方式:仅包含测试分割
数据集创建
提示/句子选择
- 来源:丹麦语的开源字幕(OSS)和维基百科(WIKI)
- 选择方法:OSS随机抽样确保所有提示唯一;WIKI通过训练30个主题的模型后,从每个主题随机抽样等量的唯一句子
- 所有句子均经过人工检查
录音
- 参与者:50名独特说话者
- 录音内容:每人发送20个WIKI句子和60个OSS句子
- 录音方式:通过第三方录音软件进行
评估
- 评估方式:第三方确认音频与文本的对齐
个人和敏感信息
- 使用协议:不得尝试确定数据集中任何说话者的身份
许可信息
- 许可类型:cc-by-4.0



