DewiBrynJones/banc-trawsgrifiadau-bangor
收藏Banc Trawsgrifiadau Bangor
概述
该数据集包含40小时的自然语音片段,来自超过50名贡献者,以mp3文件格式提供,并附有相应的“逐字”转录文本,以.tsv文件格式提供。大部分语音为自发、自然的对话。数据集在CC0开放许可下发布。
目的
这些转录文本的目的是作为语音识别模型的训练数据,包括我们的wav2vec模型。为了实现这一目的,转录文本比传统转录和字幕要求更为逐字,因此开发了一套专门的转录约定(见下文)。我们的wav2vec模型使用了一个辅助组件,即“语言模型”,以进一步标准化语音识别模型的输出,使其更接近传统转录和字幕。
文件结构
提供了三个.tsv文件:clips.tsv、train.tsv和test.tsv。clips.tsv包含所有转录文本。train.tsv和test.tsv是为了提供“标准”数据集,允许用户公平比较不同训练者训练的模型,即它们是为“基准测试”目的创建的。train.tsv包含80%的转录文本,test.tsv包含剩余的20%。
数据示例
audio_filename audio_filesize transcript duration f86a046fd0964e0386d8c1363907183d.mp3 898272 post industrial yym a gyda yy dwin cal deud 5092 f0c2310fdca34faaa83beca5fa7ed212.mp3 809720 sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra 4590 3eec3feefe254c9790739c22dd63c089.mp3 1335392 Felly ma hon hefyd yn ddogfen fydd yn trosglwyddo gydar plant bobol ifanc o un cam ir llall ac hefyd erbyn hyn ir coleg lly. 7570
.tsv文件包含四个字段:音频文件名、音频文件大小、转录文本和音频片段时长(以毫秒为单位)。
字段解释
| 字段 | 解释 |
|---|---|
audio_filename |
音频文件名 |
audio_filesize |
文件大小 |
transcript |
转录文本 |
duration |
音频片段时长(毫秒) |
子集翻译
我们还翻译了500个转录文本为英语,并将翻译与原始转录文本一起发布在translations.tsv文件中。
翻译数据示例
mp3_filename Original Translation 8d6b7347cae6092930aa9b436045e33d.mp3 fel oedden ni odd yym <anadlu> odd pob pennod yn troi mewn i Ben-Hur rywfaint ag yn yy, odd hin eitha anodd as we were um <breath> every episode turned into Ben-Hur, somewhat, and was er, it was quite difficult ce526eaf61557b8e3eb53eb1a2f55076.mp3 pan ddechreuon nir podlediad yma y bwriad odd i gal un pennod bob bythefnos <anadlu> ond yy, wrth i ni fynd ymlaen when we started this podcast the intention was to have one episode every two weeks <breath> but er, as we go on
translations.tsv文件包含三个字段:音频文件名、原始威尔士语转录文本和英语翻译。
字段解释
| 字段 | 解释 |
|---|---|
mp3_filename |
音频文件名 |
Original |
原始威尔士语转录文本 |
Translation |
英语翻译 |
创建过程
音频文件主要从威尔士语播客中收集,并获得了播客所有者和个人贡献者的同意。此外,还创建了一些模仿新闻项目和文章模式的脚本,并由语言技术单元研究人员朗读,以确保该类型的内容包含在数据集中。音频文件通过内部自动转录器处理,以分割音频并创建原始转录文本。使用Elan 6.4(可从https://archive.mpi.nl/tla/elan获取),经验丰富的转录员听取并纠正了原始转录文本。
匿名化说明
出于对贡献者的尊重,我们对所有转录文本进行了匿名化处理。决定匿名化不仅包括个人姓名,还包括任何其他个人身份信息(PII),如电话号码、职位头衔/职业、工作场所、公共场所名称、地理位置、日期/时间等。在转录过程中,所有包含PII的片段都标记为<PII>,然后过滤掉所有包含<PII>标签的片段,以确保没有个人身份信息作为此资源的一部分发布。我们还随机化了片段的顺序,因此它们不会按原始音频文件中的顺序发布。
转录约定
这些转录约定是为了确保转录文本不仅逐字而且一致。它们是通过参考过去单位使用的约定、CorCenCC、Siarad、CIG1和CIG2语料库中的约定,以及通过团队在转录任务中进行持续开发而制定的。
省略号
省略号不用于标记说话者省略的每个字母。例如,gwitho(gweithio_的发音)是正确的,而不是_gw’itho。相反,省略号用于区分拼写相同的不同单词。例如,我们在_’ma_(yma_的发音)前使用省略号以区分_ma’(_mae_的发音),goro_用于区分_gorfod_和第三人称单数现在时依赖形式_gori,_pwysa_用于区分_pwys_的复数形式和_pwyso_的多种可能动词形式。
标签
在转录过程中,使用以下标签记录超出个人语音范围的元素:
- <anadlu>
- <anadlu i mewn yn sydyn>
- <aneglur>
- <cerddoriaeth>
- <chwerthin>
- <chwibanu>
- <chwythu allan>
- <clapio>
- <clirio gwddf>
- <cusanu>
- <distawrwydd>
- <ochneidio>
- <PII>
- <peswch>
- <sniffian>
- <twtian>
非语言声音
努力一致地转录非语言声音。例如,_yy_总是用于表示或反映说话者在思考或暂停说话时发出的声音。
英语单词
每个英语单词或短语都用星号包围,例如:
Dwi’n deall sort of.
将英语单词作为威尔士语不定式
当说话者将英语单词用作不定式(例如在单词末尾添加_io_)时,我们努力使用威尔士语拼写约定拼写单词,而不是在英语拼写中添加_io_。例如,我们转录_heitio_而不是_hateio_,lyfio_而不是_loveio。
纠正发音错误
为了确保我们遵守逐字转录的原则,决定不纠正说话者的发音错误。例如,在以下句子中:
enfawr fel y diffyg o fwyd yym efallu cam-drin
很明显,_efallai_是预期的单词,但它被转录为听到的样子。
标点符号
在转录过程中使用句号、问号和感叹号。
逗号的用法
由于逗号基本上是书面文本的约定,因此在转录过程中不大量使用逗号。
字母拼写
单个字母的拼写而不是仅转录单个字母。
数字
数字被转录为单词而不是数字。
单词中途结束
标记中途结束的单词。
句子中途结束/重新开始句子
标记中途结束的句子。
说话者打断另一个说话者
在数据中有很多例子,说话者通过使用非语言声音、单词或短语(如_m-hm_、ie、ydi、_yn union_等)打断主要语音。当两个说话者的声音清晰可辨时,在被打断语音的末尾和重新开始的部分开头使用...。
语调
在转录过程中不忽略语调。
未来
在使用此转录库时应记住,这是一个初始版本。我们计划进一步完善和扩展我们的转录文本,并定期添加更多转录文本到库中。
限制
为了保护贡献者,下载此数据时,您同意不尝试识别数据中的说话者。
致谢
感谢贡献者允许使用他们的语音。我们还感谢威尔士政府资助此工作作为威尔士语文本、语音和翻译技术项目的一部分。



