arpelarpe/nota
收藏Hugging Face2022-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arpelarpe/nota
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由丹麦文化部下属的公共机构Nota创建,包含来自Nota的音频杂志Inspiration和Radio/TV的.wav和.txt文件。数据集总大小为336GB,包含语音录音和相应的转录文本。每个出版物被分割成2到50秒的.wav文件,并附有转录文本。数据集目前仅包含训练集,未来可能会引入其他分割。
提供机构:
arpelarpe
原始信息汇总
数据集概述
数据集名称
- 名称:Nota Lyd- og tekstdata
- 别名:Nota
数据集详情
- 语言:丹麦语
- 许可:CC0-1.0
- 多语言性:单语种
- 任务类别:自动语音识别
数据集内容
- 来源:由丹麦文化部下属的公共机构Nota创建,该机构为有阅读或视力障碍的人提供有声读物和有声杂志。
- 组成:包含来自Nota的有声杂志“Inspiration”和“Radio/TV”的.wav和.txt文件。
- 规模:336 GB,包含语音录音和相应的转录文本。
- 结构:每个出版物被分割成2 - 50秒的.wav文件,并附有转录文本。
数据集结构
- 数据实例:每个数据点包括音频文件的路径和对应的句子。
- 数据字段:
- path:音频文件的路径
- audio:包含下载的音频文件路径、解码的音频数组和采样率
- sentence:发言人读出的句子
- 数据分割:目前仅有一个训练分割,未来可能会引入更多分割。
使用注意事项
- 免责声明:.wav和.txt文件之间可能存在较小的差异,可能导致时间戳、文本和声音文件的对齐问题。
- 个人和敏感信息:数据集是公开和免费使用的,录音的个人已通过书面合同同意发布其录音。数据集中出现的其他名称(如电视或广播主持人)不属于敏感或个人数据。
联系方式
- 联系邮箱:info@sprogteknologi.dk
许可信息
- 许可类型:CC0-1.0
以上信息总结了Nota Lyd- og tekstdata数据集的关键细节,包括其来源、内容、结构和使用注意事项。



