DewiBrynJones/banc_trawsgrifiadau_bangor
收藏Banc Trawsgrifiadau Bangor
概述
该数据集包含40小时来自超过50名贡献者的自然语音片段,格式为mp3文件,以及相应的verbatim转录文本,格式为.tsv文件。大部分语音为自发、自然的对话。数据集在CC0开放许可下发布。
目的
这些转录文本旨在作为语音识别模型的训练数据,包括我们的wav2vec模型。为了实现这一目的,转录文本比传统转录和字幕要求的更为verbatim,因此开发了一套专门的转录规范(见下文)。我们的wav2vec模型使用了一个辅助组件,即语言模型,以进一步标准化语音识别模型的输出,使其更接近传统转录和字幕。
文件结构
提供了三个.tsv文件:clips.tsv、train.tsv和test.tsv。clips.tsv包含所有转录文本。train.tsv和test.tsv是为了提供标准数据集,使用户能够公平地比较由不同训练者训练的模型,即它们是为基准测试目的而创建的。train.tsv包含80%的转录文本,test.tsv包含剩余的20%。
数据示例
audio_filename audio_filesize transcript duration f86a046fd0964e0386d8c1363907183d.mp3 898272 post industrial yym a gyda yy dwin cal deud 5092 f0c2310fdca34faaa83beca5fa7ed212.mp3 809720 sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra 4590 3eec3feefe254c9790739c22dd63c089.mp3 1335392 Felly ma hon hefyd yn ddogfen fydd yn trosglwyddo gydar plant bobol ifanc o un cam ir llall ac hefyd erbyn hyn ir coleg lly. 7570
.tsv文件包含四列:音频文件名、音频文件大小、转录文本和音频片段时长(以毫秒为单位)。
翻译子集
我们还翻译了500个转录文本为英语,并将翻译与原始转录文本一起发布在translations.tsv文件中。
数据示例
mp3_filename Original Translation 8d6b7347cae6092930aa9b436045e33d.mp3 fel oedden ni odd yym <anadlu> odd pob pennod yn troi mewn i Ben-Hur rywfaint ag yn yy, odd hin eitha anodd as we were um <breath> every episode turned into Ben-Hur, somewhat, and was er, it was quite difficult ce526eaf61557b8e3eb53eb1a2f55076.mp3 pan ddechreuon nir podlediad yma y bwriad odd i gal un pennod bob bythefnos <anadlu> ond yy, wrth i ni fynd ymlaen when we started this podcast the intention was to have one episode every two weeks <breath> but er, as we go on
translations.tsv文件包含三列:音频文件名、威尔士语转录文本和英语翻译。
转录规范
这些转录规范旨在确保转录文本不仅verbatim,而且一致。规范的开发参考了过去单位使用的惯例,如CorCenCC、Siarad、CIG1和CIG2语料库中使用的惯例,并通过团队在转录任务中的持续开发过程。
省略号
省略号不用于标记说话者省略的每个字母。例如,gwitho(gweithio_的发音)是正确的,而不是_gw’itho。
标签
在转录时,使用以下标签记录超出个人语音范围的元素:
- <anadlu>
- <anadlu i mewn yn sydyn>
- <aneglur>
- <cerddoriaeth>
- <chwerthin>
- <chwibanu>
- <chwythu allan>
- <clapio>
- <clirio gwddf>
- <cusanu>
- <distawrwydd>
- <ochneidio>
- <PII>
- <peswch>
- <sniffian>
- <twtian>
非语音声音
努力一致地转录非语音声音。例如,_yy_总是用于表示或反映说话者在思考或暂停说话时发出的声音。
英语单词
每个英语单词或短语都用星号包围,例如:
Dwi’n deall sort of.
威尔士语拼写
当说话者使用英语单词作为动词不定式时,我们努力使用威尔士语拼写规则拼写单词,而不是在英语拼写后添加_io_。例如,我们转录_heitio_而不是_hateio_,转录_lyfio_而不是_loveio_。
标点符号
在转录语音时使用句号、问号和感叹号。
逗号的使用
由于逗号基本上是书面文本的惯例,因此在转录中不大量使用逗号。
字母拼写
单独拼写字母,而不是仅转录单个字母。
数字
转录数字时使用单词而不是数字。
单词中途结束
标记在中间结束的单词,例如:
Ma’n rhaid i mi ca- cael diod.
句子中途结束/重新开始
标记在中间结束的句子,例如:
Ma’n rhaid i mi ca’l... Ma’ rhaid i mi brynu diod.
打断对话
数据中有很多例子表明说话者通过使用非语音声音、单词或短语(如_m-hm_、ie、ydi、_yn union_等)打断主要语音。当两个说话者的声音清晰可辨时,在被打断的语音部分末尾和重新开始的语音部分开头使用...。
段落
在转录时没有省略段落。
未来计划
在使用转录库时应记住这是一个初始版本。我们计划进一步完善和标准化我们的转录文本,并定期在未来一年内添加更多转录文本到库中。
限制
为了保护贡献者,下载此数据时,您同意不尝试识别数据中的说话者。



