alexandrainst/nst-da

Name: alexandrainst/nst-da
Creator: alexandrainst
Published: 2023-10-05 14:27:00
License: 暂无描述

Hugging Face2023-10-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/nst-da

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: audio dtype: audio: sampling_rate: 16000 - name: text dtype: string - name: speaker_id dtype: int64 - name: age dtype: int64 - name: sex dtype: string - name: dialect dtype: string - name: recording_datetime dtype: string splits: - name: train num_bytes: 55199435558.0 num_examples: 182605 - name: test num_bytes: 8894080220.0 num_examples: 54747 download_size: 5358057252 dataset_size: 64093515778.0 size_categories: - 100K<n<1M license: cc0-1.0 task_categories: - automatic-speech-recognition - text-to-speech language: - da pretty_name: NST-da --- # Dataset Card for NST-da ## Dataset Description - **Repository:** <https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-55/> - **Point of Contact:** [Dan Saattrup Nielsen](mailto:dan.nielsen@alexandra.dk) - **Size of downloaded dataset files:** 5.36 GB - **Size of the generated dataset:** 64.09 GB - **Total amount of disk used:** 69.45 GB ### Dataset Summary This dataset is an upload of the [NST Danish ASR Database (16 kHz) – reorganized](https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-55/). The training and test splits are the original ones. ### Supported Tasks and Leaderboards Training automatic speech recognition is the intended task for this dataset. No leaderboard is active at this point. ### Languages The dataset is available in Danish (`da`). ## Dataset Structure ### Data Instances - **Size of downloaded dataset files:** 5.36 GB - **Size of the generated dataset:** 64.09 GB - **Total amount of disk used:** 69.45 GB An example from the dataset looks as follows. ``` { 'audio': { 'path': 'dk14x404-05072000-1531_u0008121.wav', 'array': array([ 0.00265503, 0.00248718, 0.00253296, ..., -0.00030518, -0.00035095, -0.00064087]), 'sampling_rate': 16000 }, 'text': 'Desuden er der en svømmeprøve, en fremmedsprogstest samt en afsluttende samtale.', 'speaker_id': 404, 'age': 24, 'sex': 'Female', 'dialect': 'Storkøbenhavn', 'recording_datetime': '2000-07-05T15:31:14' } ``` ### Data Fields The data fields are the same among all splits. - `audio`: an `Audio` feature. - `text`: a `string` feature. - `speaker_id`: an `int64` feature. - `age`: an `int64` feature. - `sex`: a `string` feature. - `dialect`: a `string` feature. - `recording_datetime`: a `string` feature. ### Dataset Statistics There are 183,205 samples in the training split, and 54,747 samples in the test split. #### Speakers There are 539 unique speakers in the training dataset and 56 unique speakers in the test dataset, where 54 of them are also present in the training set. #### Age Distribution ![nst-da-age-distribution.png](https://cdn-uploads.huggingface.co/production/uploads/60d368a613f774189902f555/iNMmVXXda7LtzgZEHe1eq.png) #### Dialect Distribution ![nst-da-dialect-distribution.png](https://cdn-uploads.huggingface.co/production/uploads/60d368a613f774189902f555/sckW27xYUz8apMwbLebvD.png) #### Sex Distribution ![nst-da-sex-distribution.png](https://cdn-uploads.huggingface.co/production/uploads/60d368a613f774189902f555/8Q7ZunYaLQ3laOc7yQvI8.png) #### Transcription Length Distribution ![nst-da-length-distribution.png](https://cdn-uploads.huggingface.co/production/uploads/60d368a613f774189902f555/W_LA2nydEZuEeK_Z_x2LE.png) ## Dataset Creation ### Curation Rationale There are not many large-scale ASR datasets in Danish. ### Source Data The data originates from the now bankrupt company Nordisk språkteknologi (NST), whose data was transferred to the National Library of Norway, who subsequently released it into the public domain. ## Additional Information ### Dataset Curators [Dan Saattrup Nielsen](https://saattrupdan.github.io/) from the [The Alexandra Institute](https://alexandra.dk/) reorganised the dataset and uploaded it to the Hugging Face Hub. ### Licensing Information The dataset is licensed under the [CC0 license](https://creativecommons.org/share-your-work/public-domain/cc0/).

提供机构：

alexandrainst

原始信息汇总

数据集卡片 NST-da

数据集描述

数据集概要

该数据集是 NST Danish ASR Database (16 kHz) – reorganized 的上传版本。

训练和测试拆分是原始的。

支持的任务和排行榜

该数据集旨在用于训练自动语音识别。目前没有活跃的排行榜。

语言

该数据集提供丹麦语 (da)。

数据集结构

数据实例

一个数据集示例如下：

json { "audio": { "path": "dk14x404-05072000-1531_u0008121.wav", "array": [0.00265503, 0.00248718, 0.00253296, ..., -0.00030518, -0.00035095, -0.00064087], "sampling_rate": 16000 }, "text": "Desuden er der en svømmeprøve, en fremmedsprogstest samt en afsluttende samtale.", "speaker_id": 404, "age": 24, "sex": "Female", "dialect": "Storkøbenhavn", "recording_datetime": "2000-07-05T15:31:14" }

数据字段

所有拆分的数据字段相同：

audio: 一个 Audio 特征。
text: 一个 string 特征。
speaker_id: 一个 int64 特征。
age: 一个 int64 特征。
sex: 一个 string 特征。
dialect: 一个 string 特征。
recording_datetime: 一个 string 特征。

数据集统计

训练拆分有 183,205 个样本，测试拆分有 54,747 个样本。

说话人

训练数据集中有 539 个独特的说话人，测试数据集中有 56 个独特的说话人，其中 54 个也在训练集中。

年龄分布

方言分布

性别分布

转录长度分布

数据集创建

策划理由

丹麦语中没有很多大规模的自动语音识别数据集。

源数据

数据源自现已破产的公司 Nordisk språkteknologi (NST)，其数据已转移至挪威国家图书馆，随后该图书馆将其发布到公共领域。

附加信息

数据集策展人

Dan Saattrup Nielsen 来自 The Alexandra Institute 重新组织了数据集并将其上传到 Hugging Face Hub。

许可信息

该数据集根据 CC0 许可进行许可。

搜集汇总

数据集介绍

构建方式

在丹麦语自动语音识别（ASR）领域，大规模公开数据集的匮乏长期制约着相关技术的发展。NST-da数据集应运而生，它源自原Nordisk språkteknologi（NST）公司所采集的丹麦语语音语料库，后经挪威国家图书馆整理并转为公共领域资源。Alexandra研究所的Dan Saattrup Nielsen对原始数据进行重新组织，将其转换为16 kHz采样率的统一音频格式，并保留了原始的训练集与测试集划分方案。数据集包含约18.3万条训练样本与5.5万条测试样本，总计约64 GB，每条样本均包含音频文件、对应文本转录、说话人标识、年龄、性别、方言及录音时间等结构化字段。

特点

该数据集在丹麦语语音资源中具有独特的综合性与代表性。它收录了539位训练集说话人和56位测试集说话人的语音，其中54位说话人跨集出现，为模型评估提供了可靠的说话人重叠控制。音频均以16 kHz采样率存储，契合主流ASR系统的输入要求。元数据维度丰富，涵盖年龄、性别、方言分布以及转录文本长度统计，其中方言覆盖了丹麦主要区域变体（如大哥本哈根地区），性别比例与年龄层次也呈现多元化分布。所有数据均采用CC0公共领域许可协议，消除了使用上的法律障碍，为学术研究与商业应用提供了高度开放的资源基础。

使用方法

用户可通过Hugging Face Datasets库便捷加载该数据集。使用`load_dataset("alexandrainst/nst-da")`指令即可获取默认配置，其中`train`和`test`两个分割可直接用于模型训练与评估。每条数据实例以字典形式组织，核心字段包括`audio`（含`path`路径、`array`波形数组及`sampling_rate`采样率）和`text`（文本转录）。数据集天然适配自动语音识别（ASR）与文本转语音（TTS）任务，用户可直接利用`audio`和`text`字段构建训练管道，并借助`speaker_id`、`dialect`等元数据进行细粒度分析与条件建模。

背景与挑战

背景概述

在自动语音识别（ASR）领域，大规模、高质量的标注语料库是驱动模型性能提升的关键基石，然而，相较于英语等主流语言，丹麦语等低资源语言长期面临数据匮乏的困境。为填补这一空白，由丹麦亚历山德拉研究所的Dan Saattrup Nielsen于近年主导整理并发布了NST-da数据集。该数据集源自已破产的Nordisk språkteknologi公司，后经挪威国家图书馆公有化处理，最终被重新组织为适用于现代ASR训练的格式。核心研究问题聚焦于为丹麦语提供首个公开可用的大规模语音识别基准，涵盖超过18万条训练样本与5.4万条测试样本，包含539位发音人的多元方言、年龄及性别信息。该数据集的问世极大推动了丹麦语语音技术的民主化进程，为低资源语言ASR研究树立了重要范式。

当前挑战

NST-da数据集面临的核心挑战首先体现在领域覆盖的局限性上：其录音场景多为受控环境下的朗读式语音，缺乏自然对话、嘈杂背景或远场录音等复杂声学条件，这限制了模型在真实世界应用中的鲁棒性。其次，构建过程中遭遇了显著的数据遗产处理难题——原始数据来自已解散的商业公司，其元数据格式不统一、部分录音时间跨度超过二十年，导致需人工校验发音人信息与转录文本的一致性。此外，方言分布不均衡（如Storkøbenhavn方言占比过高）与年龄层偏斜（年轻群体样本过多）进一步引入了统计偏差，使得模型在泛化到少数群体时可能表现退化。这些挑战共同指向了丹麦语ASR系统从实验室到实用化部署之间的关键鸿沟。

常用场景

经典使用场景

在自然语言处理与语音技术交汇的学术疆域中，NST-da 数据集作为丹麦语自动语音识别（ASR）领域的标杆性资源，其经典使用场景聚焦于端到端语音识别系统的训练与评估。该数据集包含逾18万条训练样本与5万余条测试样本，每条样本均由16kHz采样的音频波形及其精准的文本转写构成，辅以说话人年龄、性别、方言等元数据，为构建高鲁棒性的丹麦语声学模型提供了丰饶的数据沃土。研究者常利用其预定义的分割方案，在统一的基准上对比不同架构的识别性能，从而推动低资源语言语音技术的理论演进。

解决学术问题

此数据集的核心学术贡献在于破解丹麦语自动语音识别领域长期面临的数据稀缺困局。由于丹麦语在全球语言谱系中属于低资源语种，此前缺乏大规模、高质量且公开可用的语音—文本平行语料，导致相关研究难以复现与深入。NST-da 通过整合丹麦国家语言技术公司的历史数据并施以标准化处理，为学界提供了首个百万级样本的基准语料库，使得研究者得以系统性地探究声学模型在丹麦语独特音系特征（如咽化元音与塞音对立）下的泛化能力，并推动了多方言识别、说话人自适应等前沿课题的实证突破。

衍生相关工作

围绕 NST-da 数据集衍生出的经典工作层出不穷，其中最具代表性的是基于 wav2vec 2.0 与 Whisper 等预训练模型的迁移学习研究。研究者利用该数据集对通用语音表征进行丹麦语微调，显著降低了低资源场景下的词错误率。此外，该数据集亦催生了首个丹麦语语音合成（TTS）的端到端基线系统，通过其蕴含的说话人元数据实现了多音色可控生成。在学术竞赛层面，它被纳入 Nordic 语种语音识别挑战赛，成为评估北欧语言技术进展的试金石，持续激发着跨语种迁移与噪声鲁棒性等方向的创新探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集