five

techiaith/banc-trawsgrifiadau-bangor

收藏
Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/techiaith/banc-trawsgrifiadau-bangor
下载链接
链接失效反馈
官方服务:
资源简介:
Bangor转录库是一个包含40小时自然语音片段的数据集,来自50多位贡献者的mp3文件格式,以及相应的逐字转录文本,以.tsv文件格式提供。大多数语音是自发的自然语音。该数据集旨在作为语音识别模型的训练数据,特别是wav2vec模型。转录文本比传统转录更逐字,为此开发了一套特定的转录规范。数据集包括三个.tsv文件:clips.tsv、train.tsv和test.tsv,其中train.tsv包含80%的转录文本,test.tsv包含剩余的20%。此外,500个转录文本已翻译成英文,并提供在translations.tsv文件中。数据集还包括详细的转录过程、规范和匿名化个人信息的信息。

Bangor转录库是一个包含40小时自然语音片段的数据集,来自50多位贡献者的mp3文件格式,以及相应的逐字转录文本,以.tsv文件格式提供。大多数语音是自发的自然语音。该数据集旨在作为语音识别模型的训练数据,特别是wav2vec模型。转录文本比传统转录更逐字,为此开发了一套特定的转录规范。数据集包括三个.tsv文件:clips.tsv、train.tsv和test.tsv,其中train.tsv包含80%的转录文本,test.tsv包含剩余的20%。此外,500个转录文本已翻译成英文,并提供在translations.tsv文件中。数据集还包括详细的转录过程、规范和匿名化个人信息的信息。
提供机构:
techiaith
原始信息汇总

数据集概述

基本信息

  • 名称: Banc Trawsgrifiadau Bangor
  • 语言: 威尔士语 (cy)
  • 许可证: CC0-1.0
  • 大小: 10K<n<100K
  • 标签: 逐字转录, 语音识别

数据集内容

  • 音频文件: 格式为mp3,采样率为48000 Hz。
  • 转录文件: 格式为.tsv,包含逐字转录的语音内容。
  • 数据分割:
    • clips: 包含28277个样本,总字节数为678448153.375。
    • train: 包含22621个样本,总字节数为543955916.375。
    • test: 包含5656个样本,总字节数为134492237.0。
  • 下载大小: 1345245508字节
  • 数据集大小: 1356896306.75字节

数据结构

  • 音频文件: 包含文件路径和音频数据。
  • 转录文件: 包含四个字段:
    • audio_filename: 音频文件名
    • audio_filesize: 音频文件大小
    • transcript: 转录文本
    • duration: 音频片段时长(毫秒)

额外资源

  • 翻译文件: 包含500个转录文本的英语翻译,格式为.tsv,包含三个字段:
    • mp3_filename: 音频文件名
    • Original: 原始威尔士语转录
    • Translation: 英语翻译

转录规范

  • 转录原则: 遵循逐字转录原则,确保转录的准确性和一致性。
  • 特殊标记: 使用特殊标记如<anadlu>, <PII>等来标记非语音元素和个人信息。
  • 非语音声音: 使用特定符号如yy, yym等来转录非语音声音。
  • 英语单词处理: 使用星号包围英语单词以示区分。

未来计划

  • 数据集更新: 计划进一步精炼转录规范,并定期添加新的转录内容。

限制

  • 隐私保护: 数据集中的转录文本已进行匿名化处理,以保护参与者隐私。

致谢

  • 贡献者: 感谢所有音频文件的贡献者。
  • 资助机构: 感谢威尔士政府资助此项目作为威尔士语文本、语音和翻译技术测试项目的一部分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作