alexandrainst/nota

Name: alexandrainst/nota
Creator: alexandrainst
Published: 2023-10-03 07:51:33
License: 暂无描述

Hugging Face2023-10-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/nota

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Nota，由丹麦文化部下属的公共机构Nota创建。数据集包含音频及其对应的转录文本，音频来源于Nota的音频杂志Inspiration和Radio/TV。每个音频文件被分割为2到50秒的片段。数据集主要用于自动语音识别和语音合成任务，语言为丹麦语。数据集的大小为361.62 GB，包含98,600个样本。数据集由Dan Saattrup Nielsen整理并上传至Hugging Face Hub，采用CC0许可证。

提供机构：

alexandrainst

原始信息汇总

数据集卡片 for Nota

数据集描述

数据集概述

该数据集由丹麦文化部下属的公共机构Nota创建，包含Nota的有声杂志“Inspiration”和“Radio/TV”的音频及其转录文本。所有文件已按每次阅读的杂志版次分割成2至50秒的片段。

支持的任务和排行榜

该数据集旨在用于自动语音识别和语音合成任务，目前没有活跃的排行榜。

语言

数据集提供丹麦语（da）版本。

数据集结构

数据实例

一个数据集示例如下： json { "audio": { "path": "RMHL20190028_000140.wav", "array": [ -0.04023849, -0.06235407, -0.04545404, ..., 0.00014322, 0.00017925, 0.00018811 ], "sampling_rate": 16000 }, "text": "13:05: 24syv Dokumentar 14:05: Spørge Jørgen Vært: Jørgen Leth" }