five

Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 task_categories: - automatic-speech-recognition language: - nb - nn - 'no' size_categories: - 100K<n<1M --- # Dataset Card for Stortinget Speech Corpus V1.0 ## Overview This is the [WebDataset](https://github.com/webdataset/webdataset) version of the [Stortinget Speech Corpus V1.0](https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-91/), originally created by the [National Library of Norway](https://www.nb.no/en/). We re-organize it into WebDataset format for better usability. The Stortinget Speech Corpus (SSC) is a 5000+ hours speech dataset for weak supervision ASR created from audio andaligned proceedings text from Stortinget, the Norwegian Parliament. For more information, please refer to the original data page, document, and publication. + Original data page: https://www.nb.no/sprakbanken/en/resource-catalogue/oai-nb-no-sbr-91/ + Original data document: https://www.nb.no/sbfil/talegjenkjenning/ssc/SSC_1.pdf + Original dataset card: https://huggingface.co/datasets/Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0/blob/main/original_ssc_v1_0_dataset_card.md + Publication: https://aclanthology.org/2023.resourceful-1.7.pdf ## Usage ```python from datasets import load_dataset ds = load_dataset( "Aalto-Speech-Synthesis/stortinget_speech_corpus_v1.0", split='train', streaming=True, ) example = next(iter(ds)) print(example.keys()) # dict_keys(['json', 'mp3', '__key__', '__url__']) # Inspect JSON print(example['json']) ''' e.g. { "segment_id": 565000, "audio_path": "data/audio/2019/Stortinget-20191204-095506_16959900_16989000.mp3", "context_after": "med måten man gjør det på i dette landet. Det tror jeg er klokt, det tror jeg er bra. Vi skal gjøre den jobben, og så skal vi konkludere, der vi skal svare ut det Stortinget har av føringer, og avtalen fra Arbeiderpartiet. Jeg takker for svaret, selv om det kanskje ikke var helt svar på spørsmålet, så", "context_before": "Mine spørsmål til statsråden er: Er statsråden enig med sin avtalepartner Arbeiderpartiet i dette, og vil han da avvise søknaden om bygging av NorthConnect? Som jeg sa i mitt innlegg, skal det ikke herske tvil: Departementet legger til grunn de føringer Stortinget har sagt skal tilligge denne konsesjonsbehandlingen. Det har jeg absolutt til hensikt å følge opp.", "duration": 29.1, "meeting_date": "2019-12-04", "proceedings_text": "Så ligger det en politisk avtale der som statsråden også har til hensikt å følge opp i behandlingen av NorthConnect. Så er det slik at det ikke er tatt stilling til denne søknaden. Jeg viser til at det kommer et grundig faglig grunnlag, som er det som skal legges til grunn før man trekker en konklusjon, egentlig helt i tråd", "proceedingsfile": "data/proceedings/2019-12-04_proceedings.txt", "score": 0.859504132231405, "sessionid": 974, "split": "train", "transcription_text": "og så ligger der en politisk avtale som statsråden nå har til hensikt eee å følge opp eee i behandlinga av northconnect og så er det sånn at eee der er ikke tatt stilling til denne søknaden jeg viser til at det kommer et eee grundig faglig grunnlag som er det som skal legges til grunn før man tar en konklusjon egentlig helt i tråd", "transcriptionfile": "data/transcriptions/json/2019-12-04_transcription.json", "num_speakers": 1, "speakers": [ {"speaker_id": "person.KBF", "birth_county": "", "rep_counties": ["Nordland"], "language": "nob", "dialect": null, "dob": "1971-04-27", "gender": "M", "age": 48} ] } ''' # Inspect audio: example['mp3'].get_all_samples() ``` ## Citing this work ```Latex @inproceedings{ solberg2023large, title={A Large Norwegian Dataset for Weak Supervision ASR}, author={Solberg, Per Erik and Beauguitte, Pierre and Kummervold, Per Egil and Wetjen,Freddy}, booktitle={Proceedings of the Second Workshop on Resources and Representations forUnder-Resourced Languages and Domains (RESOURCEFUL-2023)}, pages={48--52}, year={2023} } ```
提供机构:
Aalto-Speech-Synthesis
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作