Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0
收藏Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
task_categories:
- automatic-speech-recognition
language:
- nb
- nn
- 'no'
size_categories:
- 100K<n<1M
---
# Dataset Card for Stortinget Speech Corpus V1.0
## Overview
This is the [WebDataset](https://github.com/webdataset/webdataset) version of the [Stortinget Speech Corpus V1.0](https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-91/), originally created by the [National Library of Norway](https://www.nb.no/en/). We re-organize it into WebDataset format for better usability.
The Stortinget Speech Corpus (SSC) is a 5000+ hours speech dataset for weak supervision ASR created from audio andaligned proceedings text from Stortinget, the Norwegian Parliament. For more information, please refer to the original data page, document, and publication.
+ Original data page: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-91/
+ Original data document: https://www.nb.no/sbfil/talegjenkjenning/ssc/SSC_1.pdf
+ Original dataset card: https://huggingface.co/datasets/Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0/blob/main/original_ssc_v1_0_dataset_card.md
+ Publication: https://aclanthology.org/2023.resourceful-1.7.pdf
## Usage
```python
from datasets import load_dataset
ds = load_dataset(
"Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0",
split='train',
streaming=True,
)
example = next(iter(ds))
print(example.keys())
# dict_keys(['json', 'mp3', '__key__', '__url__'])
# Inspect JSON
print(example['json'])
'''
e.g. {
"segment_id": 565000, "audio_path": "data/audio/2019/Stortinget-20191204-095506_16959900_16989000.mp3",
"context_after": "med måten man gjør det på i dette landet. Det tror jeg er klokt, det tror jeg er bra. Vi skal gjøre den jobben, og så skal vi konkludere, der vi skal svare ut det Stortinget har av føringer, og avtalen fra Arbeiderpartiet. Jeg takker for svaret, selv om det kanskje ikke var helt svar på spørsmålet, så",
"context_before": "Mine spørsmål til statsråden er: Er statsråden enig med sin avtalepartner Arbeiderpartiet i dette, og vil han da avvise søknaden om bygging av NorthConnect? Som jeg sa i mitt innlegg, skal det ikke herske tvil: Departementet legger til grunn de føringer Stortinget har sagt skal tilligge denne konsesjonsbehandlingen. Det har jeg absolutt til hensikt å følge opp.",
"duration": 29.1, "meeting_date": "2019-12-04",
"proceedings_text": "Så ligger det en politisk avtale der som statsråden også har til hensikt å følge opp i behandlingen av NorthConnect. Så er det slik at det ikke er tatt stilling til denne søknaden. Jeg viser til at det kommer et grundig faglig grunnlag, som er det som skal legges til grunn før man trekker en konklusjon, egentlig helt i tråd",
"proceedingsfile": "data/proceedings/2019-12-04_proceedings.txt", "score": 0.859504132231405,
"sessionid": 974, "split": "train",
"transcription_text": "og så ligger der en politisk avtale som statsråden nå har til hensikt eee å følge opp eee i behandlinga av northconnect og så er det sånn at eee der er ikke tatt stilling til denne søknaden jeg viser til at det kommer et eee grundig faglig grunnlag som er det som skal legges til grunn før man tar en konklusjon egentlig helt i tråd",
"transcriptionfile": "data/transcriptions/json/2019-12-04_transcription.json", "num_speakers": 1,
"speakers": [
{"speaker_id": "person.KBF", "birth_county": "", "rep_counties": ["Nordland"], "language": "nob", "dialect": null, "dob": "1971-04-27", "gender": "M", "age": 48}
]
}
'''
# Inspect audio:
example['mp3'].get_all_samples()
```
## Citing this work
```Latex
@inproceedings{
solberg2023large,
title={A Large Norwegian Dataset for Weak Supervision ASR},
author={Solberg, Per Erik and Beauguitte, Pierre and Kummervold, Per Egil and Wetjen,Freddy},
booktitle={Proceedings of the Second Workshop on Resources and Representations forUnder-Resourced Languages and Domains (RESOURCEFUL-2023)},
pages={48--52},
year={2023}
}
```
提供机构:
Aalto-Speech-Synthesis



