techiaith/banc-trawsgrifiadau-bangor
收藏Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/techiaith/banc-trawsgrifiadau-bangor
下载链接
链接失效反馈官方服务:
资源简介:
Bangor转录库是一个包含40小时自然语音片段的数据集,来自50多位贡献者的mp3文件格式,以及相应的逐字转录文本,以.tsv文件格式提供。大多数语音是自发的自然语音。该数据集旨在作为语音识别模型的训练数据,特别是wav2vec模型。转录文本比传统转录更逐字,为此开发了一套特定的转录规范。数据集包括三个.tsv文件:clips.tsv、train.tsv和test.tsv,其中train.tsv包含80%的转录文本,test.tsv包含剩余的20%。此外,500个转录文本已翻译成英文,并提供在translations.tsv文件中。数据集还包括详细的转录过程、规范和匿名化个人信息的信息。
Bangor转录库是一个包含40小时自然语音片段的数据集,来自50多位贡献者的mp3文件格式,以及相应的逐字转录文本,以.tsv文件格式提供。大多数语音是自发的自然语音。该数据集旨在作为语音识别模型的训练数据,特别是wav2vec模型。转录文本比传统转录更逐字,为此开发了一套特定的转录规范。数据集包括三个.tsv文件:clips.tsv、train.tsv和test.tsv,其中train.tsv包含80%的转录文本,test.tsv包含剩余的20%。此外,500个转录文本已翻译成英文,并提供在translations.tsv文件中。数据集还包括详细的转录过程、规范和匿名化个人信息的信息。
提供机构:
techiaith
原始信息汇总
数据集概述
基本信息
- 名称: Banc Trawsgrifiadau Bangor
- 语言: 威尔士语 (cy)
- 许可证: CC0-1.0
- 大小: 10K<n<100K
- 标签: 逐字转录, 语音识别
数据集内容
- 音频文件: 格式为mp3,采样率为48000 Hz。
- 转录文件: 格式为.tsv,包含逐字转录的语音内容。
- 数据分割:
- clips: 包含28277个样本,总字节数为678448153.375。
- train: 包含22621个样本,总字节数为543955916.375。
- test: 包含5656个样本,总字节数为134492237.0。
- 下载大小: 1345245508字节
- 数据集大小: 1356896306.75字节
数据结构
- 音频文件: 包含文件路径和音频数据。
- 转录文件: 包含四个字段:
audio_filename: 音频文件名audio_filesize: 音频文件大小transcript: 转录文本duration: 音频片段时长(毫秒)
额外资源
- 翻译文件: 包含500个转录文本的英语翻译,格式为.tsv,包含三个字段:
mp3_filename: 音频文件名Original: 原始威尔士语转录Translation: 英语翻译
转录规范
- 转录原则: 遵循逐字转录原则,确保转录的准确性和一致性。
- 特殊标记: 使用特殊标记如
<anadlu>,<PII>等来标记非语音元素和个人信息。 - 非语音声音: 使用特定符号如
yy,yym等来转录非语音声音。 - 英语单词处理: 使用星号包围英语单词以示区分。
未来计划
- 数据集更新: 计划进一步精炼转录规范,并定期添加新的转录内容。
限制
- 隐私保护: 数据集中的转录文本已进行匿名化处理,以保护参与者隐私。
致谢
- 贡献者: 感谢所有音频文件的贡献者。
- 资助机构: 感谢威尔士政府资助此项目作为威尔士语文本、语音和翻译技术测试项目的一部分。



