five

DewiBrynJones/banc_trawsgrifiadau_bangor

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/DewiBrynJones/banc_trawsgrifiadau_bangor
下载链接
链接失效反馈
官方服务:
资源简介:
Banc Trawsgrifiadau Bangor数据集包含40小时的自然语音片段,来自50多位贡献者,格式为mp3文件,并附有相应的逐字转录文本,格式为.tsv文件。数据集主要用于训练语音识别模型,特别是wav2vec模型。数据集还包含一个子集的英语翻译。创建过程中,音频文件主要来自威尔士语播客,并经过匿名化处理以保护贡献者的隐私。转录过程中遵循了一系列特定的转录规范,以确保转录的一致性和准确性。

The Banc Trawsgrifiadau Bangor dataset consists of 40 hours of natural speech segments from over 50 contributors in mp3 file format, along with corresponding verbatim transcriptions in .tsv file format. The dataset is primarily used for training speech recognition models, particularly wav2vec models. It also includes a subset of English translations. The audio files were mainly collected from Welsh podcasts and were anonymized to protect the privacy of contributors. The transcription process followed a set of specific conventions to ensure consistency and accuracy.
提供机构:
DewiBrynJones
原始信息汇总

Banc Trawsgrifiadau Bangor

概述

该数据集包含40小时来自超过50名贡献者的自然语音片段,格式为mp3文件,以及相应的verbatim转录文本,格式为.tsv文件。大部分语音为自发、自然的对话。数据集在CC0开放许可下发布。

目的

这些转录文本旨在作为语音识别模型的训练数据,包括我们的wav2vec模型。为了实现这一目的,转录文本比传统转录和字幕要求的更为verbatim,因此开发了一套专门的转录规范(见下文)。我们的wav2vec模型使用了一个辅助组件,即语言模型,以进一步标准化语音识别模型的输出,使其更接近传统转录和字幕。

文件结构

提供了三个.tsv文件:clips.tsv、train.tsv和test.tsv。clips.tsv包含所有转录文本。train.tsv和test.tsv是为了提供标准数据集,使用户能够公平地比较由不同训练者训练的模型,即它们是为基准测试目的而创建的。train.tsv包含80%的转录文本,test.tsv包含剩余的20%。

数据示例

audio_filename audio_filesize transcript duration f86a046fd0964e0386d8c1363907183d.mp3 898272 post industrial yym a gyda yy dwin cal deud 5092 f0c2310fdca34faaa83beca5fa7ed212.mp3 809720 sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra 4590 3eec3feefe254c9790739c22dd63c089.mp3 1335392 Felly ma hon hefyd yn ddogfen fydd yn trosglwyddo gydar plant bobol ifanc o un cam ir llall ac hefyd erbyn hyn ir coleg lly. 7570

.tsv文件包含四列:音频文件名、音频文件大小、转录文本和音频片段时长(以毫秒为单位)。

翻译子集

我们还翻译了500个转录文本为英语,并将翻译与原始转录文本一起发布在translations.tsv文件中。

数据示例

mp3_filename Original Translation 8d6b7347cae6092930aa9b436045e33d.mp3 fel oedden ni odd yym <anadlu> odd pob pennod yn troi mewn i Ben-Hur rywfaint ag yn yy, odd hin eitha anodd as we were um <breath> every episode turned into Ben-Hur, somewhat, and was er, it was quite difficult ce526eaf61557b8e3eb53eb1a2f55076.mp3 pan ddechreuon nir podlediad yma y bwriad odd i gal un pennod bob bythefnos <anadlu> ond yy, wrth i ni fynd ymlaen when we started this podcast the intention was to have one episode every two weeks <breath> but er, as we go on

translations.tsv文件包含三列:音频文件名、威尔士语转录文本和英语翻译。

转录规范

这些转录规范旨在确保转录文本不仅verbatim,而且一致。规范的开发参考了过去单位使用的惯例,如CorCenCC、Siarad、CIG1和CIG2语料库中使用的惯例,并通过团队在转录任务中的持续开发过程。

省略号

省略号不用于标记说话者省略的每个字母。例如,gwithogweithio_的发音)是正确的,而不是_gw’itho

标签

在转录时,使用以下标签记录超出个人语音范围的元素:

  • <anadlu>
  • <anadlu i mewn yn sydyn>
  • <aneglur>
  • <cerddoriaeth>
  • <chwerthin>
  • <chwibanu>
  • <chwythu allan>
  • <clapio>
  • <clirio gwddf>
  • <cusanu>
  • <distawrwydd>
  • <ochneidio>
  • <PII>
  • <peswch>
  • <sniffian>
  • <twtian>

非语音声音

努力一致地转录非语音声音。例如,_yy_总是用于表示或反映说话者在思考或暂停说话时发出的声音。

英语单词

每个英语单词或短语都用星号包围,例如:

Dwi’n deall sort of.

威尔士语拼写

当说话者使用英语单词作为动词不定式时,我们努力使用威尔士语拼写规则拼写单词,而不是在英语拼写后添加_io_。例如,我们转录_heitio_而不是_hateio_,转录_lyfio_而不是_loveio_。

标点符号

在转录语音时使用句号、问号和感叹号。

逗号的使用

由于逗号基本上是书面文本的惯例,因此在转录中不大量使用逗号。

字母拼写

单独拼写字母,而不是仅转录单个字母。

数字

转录数字时使用单词而不是数字。

单词中途结束

标记在中间结束的单词,例如:

Ma’n rhaid i mi ca- cael diod.

句子中途结束/重新开始

标记在中间结束的句子,例如:

Ma’n rhaid i mi ca’l... Ma’ rhaid i mi brynu diod.

打断对话

数据中有很多例子表明说话者通过使用非语音声音、单词或短语(如_m-hm_、ieydi、_yn union_等)打断主要语音。当两个说话者的声音清晰可辨时,在被打断的语音部分末尾和重新开始的语音部分开头使用...

段落

在转录时没有省略段落。

未来计划

在使用转录库时应记住这是一个初始版本。我们计划进一步完善和标准化我们的转录文本,并定期在未来一年内添加更多转录文本到库中。

限制

为了保护贡献者,下载此数据时,您同意不尝试识别数据中的说话者。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作