five

arpelarpe/nota

收藏
Hugging Face2022-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arpelarpe/nota
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由丹麦文化部下属的公共机构Nota创建,包含来自Nota的音频杂志Inspiration和Radio/TV的.wav和.txt文件。数据集总大小为336GB,包含语音录音和相应的转录文本。每个出版物被分割成2到50秒的.wav文件,并附有转录文本。数据集目前仅包含训练集,未来可能会引入其他分割。
提供机构:
arpelarpe
原始信息汇总

数据集概述

数据集名称

  • 名称:Nota Lyd- og tekstdata
  • 别名:Nota

数据集详情

  • 语言:丹麦语
  • 许可:CC0-1.0
  • 多语言性:单语种
  • 任务类别:自动语音识别

数据集内容

  • 来源:由丹麦文化部下属的公共机构Nota创建,该机构为有阅读或视力障碍的人提供有声读物和有声杂志。
  • 组成:包含来自Nota的有声杂志“Inspiration”和“Radio/TV”的.wav和.txt文件。
  • 规模:336 GB,包含语音录音和相应的转录文本。
  • 结构:每个出版物被分割成2 - 50秒的.wav文件,并附有转录文本。

数据集结构

  • 数据实例:每个数据点包括音频文件的路径和对应的句子。
  • 数据字段
    • path:音频文件的路径
    • audio:包含下载的音频文件路径、解码的音频数组和采样率
    • sentence:发言人读出的句子
  • 数据分割:目前仅有一个训练分割,未来可能会引入更多分割。

使用注意事项

  • 免责声明:.wav和.txt文件之间可能存在较小的差异,可能导致时间戳、文本和声音文件的对齐问题。
  • 个人和敏感信息:数据集是公开和免费使用的,录音的个人已通过书面合同同意发布其录音。数据集中出现的其他名称(如电视或广播主持人)不属于敏感或个人数据。

联系方式

  • 联系邮箱:info@sprogteknologi.dk

许可信息

  • 许可类型:CC0-1.0

以上信息总结了Nota Lyd- og tekstdata数据集的关键细节,包括其来源、内容、结构和使用注意事项。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作