scribe-project/nbtale12
收藏Hugging Face2023-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/scribe-project/nbtale12
下载链接
链接失效反馈官方服务:
资源简介:
这是用于测试论文《Improving Generalization of Norwegian ASR with Limited Linguistic Resources》中模型的NB Tale模块1和2的版本,仅包含小于15秒的片段。该数据集包含母语和非母语说话者。在论文中分析数据时,`region`设置为`foreign`的说话者被过滤掉了。
提供机构:
scribe-project
原始信息汇总
数据集概述
数据集特征
- speaker_id: 字符串类型
- gender: 字符串类型
- utterance_id: 字符串类型
- language: 字符串类型
- raw_text: 字符串类型
- full_audio_file: 字符串类型
- original_data_split: 字符串类型
- region: 字符串类型
- duration: 浮点数类型
- start: 浮点数类型
- end: 浮点数类型
- utterance_audio_file: 音频类型
- standardized_text: 字符串类型
数据集分割
- train:
- num_bytes: 2078070414.74
- num_examples: 6630
数据集大小
- download_size: 1624762124
- dataset_size: 2078070414.74
数据集描述
- 语言: 挪威语 Bokmål
- 数据集用途: 用于测试论文《Improving Generalization of Norwegian ASR with Limited Linguistic Resources》中模型的 Bokmål 段落,仅包含长度小于 15 秒的段落。
- 数据集创建:
- 源数据: 来自挪威语言银行的全版本数据集
- 数据收集与标准化: 使用 Spraakbanken downloader 下载数据,并通过 combined dataset standardization scripts 进行标准化处理。
许可信息
- 许可证: CC0
引用信息
@inproceedings{ solberg2023improving, title={Improving Generalization of Norwegian {ASR} with Limited Linguistic Resources}, author={Per Erik Solberg and Pablo Ortiz and Phoebe Parsons and Torbj{o}rn Svendsen and Giampiero Salvi}, booktitle={The 24rd Nordic Conference on Computational Linguistics}, year={2023} }



