five

scribe-project/nbtale12

收藏
Hugging Face2023-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/scribe-project/nbtale12
下载链接
链接失效反馈
官方服务:
资源简介:
这是用于测试论文《Improving Generalization of Norwegian ASR with Limited Linguistic Resources》中模型的NB Tale模块1和2的版本,仅包含小于15秒的片段。该数据集包含母语和非母语说话者。在论文中分析数据时,`region`设置为`foreign`的说话者被过滤掉了。
提供机构:
scribe-project
原始信息汇总

数据集概述

数据集特征

  • speaker_id: 字符串类型
  • gender: 字符串类型
  • utterance_id: 字符串类型
  • language: 字符串类型
  • raw_text: 字符串类型
  • full_audio_file: 字符串类型
  • original_data_split: 字符串类型
  • region: 字符串类型
  • duration: 浮点数类型
  • start: 浮点数类型
  • end: 浮点数类型
  • utterance_audio_file: 音频类型
  • standardized_text: 字符串类型

数据集分割

  • train:
    • num_bytes: 2078070414.74
    • num_examples: 6630

数据集大小

  • download_size: 1624762124
  • dataset_size: 2078070414.74

数据集描述

  • 语言: 挪威语 Bokmål
  • 数据集用途: 用于测试论文《Improving Generalization of Norwegian ASR with Limited Linguistic Resources》中模型的 Bokmål 段落,仅包含长度小于 15 秒的段落。
  • 数据集创建:
    • 源数据: 来自挪威语言银行的全版本数据集
    • 数据收集与标准化: 使用 Spraakbanken downloader 下载数据,并通过 combined dataset standardization scripts 进行标准化处理。

许可信息

  • 许可证: CC0

引用信息

@inproceedings{ solberg2023improving, title={Improving Generalization of Norwegian {ASR} with Limited Linguistic Resources}, author={Per Erik Solberg and Pablo Ortiz and Phoebe Parsons and Torbj{o}rn Svendsen and Giampiero Salvi}, booktitle={The 24rd Nordic Conference on Computational Linguistics}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作