five

Alvenir/alvenir_asr_da_eval

收藏
Hugging Face2025-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Alvenir/alvenir_asr_da_eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由Alvenir创建,旨在评估丹麦语的自动语音识别(ASR)模型,也可用于训练,但数据量有限。数据集包含.wav文件和对应的参考文本,数据量略超过5小时,来自50名年龄在20至60岁之间的说话者。数据通过第三方供应商的软件和人员收集,并经过验证。
提供机构:
Alvenir
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 创建者:Alvenir
  • 目的:评估丹麦语的自动语音识别(ASR)模型
  • 包含内容:.wav音频文件及其对应的参考文本
  • 数据量:约5小时,涵盖50名年龄在20至60岁之间的说话者
  • 数据来源:第三方供应商通过其软件和人收集,所有录音均已验证

数据集结构

数据实例

  • 组成:音频文件路径及其对应的句子
  • 未来可能添加的额外信息:年龄和性别

数据字段

  • 音频:包含音频文件路径、解码后的音频数组和采样率
  • 句子:用户被提示说的句子

数据分割

  • 用途:作为丹麦语ASR的测试/评估数据集
  • 分割方式:仅包含测试分割

数据集创建

提示/句子选择

  • 来源:丹麦语的开源字幕(OSS)和维基百科(WIKI)
  • 选择方法:OSS随机抽样确保所有提示唯一;WIKI通过训练30个主题的模型后,从每个主题随机抽样等量的唯一句子
  • 所有句子均经过人工检查

录音

  • 参与者:50名独特说话者
  • 录音内容:每人发送20个WIKI句子和60个OSS句子
  • 录音方式:通过第三方录音软件进行

评估

  • 评估方式:第三方确认音频与文本的对齐

个人和敏感信息

  • 使用协议:不得尝试确定数据集中任何说话者的身份

许可信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作