DewiBrynJones/banc-trawsgrifiadau-bangor

Name: DewiBrynJones/banc-trawsgrifiadau-bangor
Creator: DewiBrynJones
Published: 2024-07-16 08:04:30
License: 暂无描述

Hugging Face2024-07-16 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/DewiBrynJones/banc-trawsgrifiadau-bangor

下载链接

链接失效反馈

官方服务：

资源简介：

Bangor转录库是一个包含40小时自然语音片段的数据集，来自50多位贡献者的mp3文件格式，以及相应的逐字转录文本，以.tsv文件格式提供。大多数语音是自发的自然语音。该数据集主要用于训练语音识别模型，特别是wav2vec模型。转录文本比传统转录更逐字，并且为转录工作开发了一套特定的规范。数据集包括三个.tsv文件：clips.tsv、train.tsv和test.tsv，其中train.tsv包含80%的转录文本，test.tsv包含剩余的20%。此外，500个转录文本已翻译成英文，并包含在translations.tsv文件中。数据集还包括详细的转录过程、规范和内容匿名化信息。

The Bangor Transcription Bank dataset is a resource containing 40 hours and 46 seconds of segments of natural speech from over 50 contributors in mp3 file format, together with corresponding verbatim transcripts in .tsv file format. The majority of the speech is spontaneous, natural speech. This material is distributed under a CC0 open license. The purpose of these transcripts is to act as training data for speech recognition models, including our wav2vec models. To meet this purpose, the transcriptions are more verbatim than what is seen in traditional transcriptions and subtitling, thus a bespoke set of conventions has been developed for the transcription work. We have also provided 3 .tsv files, namely clips.tsv, train.tsv, and test.tsv. clips.tsv contains all of our transcripts. train.tsv and test.tsv were created to provide standard sets that allow users to compare models trained by different trainers fairly, i.e., they were created for benchmark purposes. train.tsv contains 80% of our transcripts, and test.tsv contains the remaining 20%. Additionally, we have translated 500 of our transcripts into English and published the translations together with their original transcripts in the translations.tsv file.

提供机构：

DewiBrynJones

原始信息汇总

Banc Trawsgrifiadau Bangor

概述

该数据集包含40小时的自然语音片段，来自超过50名贡献者，以mp3文件格式提供，并附有相应的“逐字”转录文本，以.tsv文件格式提供。大部分语音为自发、自然的对话。数据集在CC0开放许可下发布。

目的

这些转录文本的目的是作为语音识别模型的训练数据，包括我们的wav2vec模型。为了实现这一目的，转录文本比传统转录和字幕要求更为逐字，因此开发了一套专门的转录约定（见下文）。我们的wav2vec模型使用了一个辅助组件，即“语言模型”，以进一步标准化语音识别模型的输出，使其更接近传统转录和字幕。

文件结构

提供了三个.tsv文件：clips.tsv、train.tsv和test.tsv。clips.tsv包含所有转录文本。train.tsv和test.tsv是为了提供“标准”数据集，允许用户公平比较不同训练者训练的模型，即它们是为“基准测试”目的创建的。train.tsv包含80%的转录文本，test.tsv包含剩余的20%。

数据示例

audio_filename audio_filesize transcript duration f86a046fd0964e0386d8c1363907183d.mp3 898272 post industrial yym a gyda yy dwin cal deud 5092 f0c2310fdca34faaa83beca5fa7ed212.mp3 809720 sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra 4590 3eec3feefe254c9790739c22dd63c089.mp3 1335392 Felly ma hon hefyd yn ddogfen fydd yn trosglwyddo gydar plant bobol ifanc o un cam ir llall ac hefyd erbyn hyn ir coleg lly. 7570

.tsv文件包含四个字段：音频文件名、音频文件大小、转录文本和音频片段时长（以毫秒为单位）。

字段解释

字段	解释
`audio_filename`	音频文件名
`audio_filesize`	文件大小
`transcript`	转录文本
`duration`	音频片段时长（毫秒）

子集翻译

我们还翻译了500个转录文本为英语，并将翻译与原始转录文本一起发布在translations.tsv文件中。

翻译数据示例

mp3_filename Original Translation 8d6b7347cae6092930aa9b436045e33d.mp3 fel oedden ni odd yym <anadlu> odd pob pennod yn troi mewn i Ben-Hur rywfaint ag yn yy, odd hin eitha anodd as we were um <breath> every episode turned into Ben-Hur, somewhat, and was er, it was quite difficult ce526eaf61557b8e3eb53eb1a2f55076.mp3 pan ddechreuon nir podlediad yma y bwriad odd i gal un pennod bob bythefnos <anadlu> ond yy, wrth i ni fynd ymlaen when we started this podcast the intention was to have one episode every two weeks <breath> but er, as we go on

translations.tsv文件包含三个字段：音频文件名、原始威尔士语转录文本和英语翻译。

字段解释

字段	解释
`mp3_filename`	音频文件名
`Original`	原始威尔士语转录文本
`Translation`	英语翻译

创建过程

音频文件主要从威尔士语播客中收集，并获得了播客所有者和个人贡献者的同意。此外，还创建了一些模仿新闻项目和文章模式的脚本，并由语言技术单元研究人员朗读，以确保该类型的内容包含在数据集中。音频文件通过内部自动转录器处理，以分割音频并创建原始转录文本。使用Elan 6.4（可从https://archive.mpi.nl/tla/elan获取），经验丰富的转录员听取并纠正了原始转录文本。

匿名化说明

出于对贡献者的尊重，我们对所有转录文本进行了匿名化处理。决定匿名化不仅包括个人姓名，还包括任何其他个人身份信息（PII），如电话号码、职位头衔/职业、工作场所、公共场所名称、地理位置、日期/时间等。在转录过程中，所有包含PII的片段都标记为<PII>，然后过滤掉所有包含<PII>标签的片段，以确保没有个人身份信息作为此资源的一部分发布。我们还随机化了片段的顺序，因此它们不会按原始音频文件中的顺序发布。

转录约定

这些转录约定是为了确保转录文本不仅逐字而且一致。它们是通过参考过去单位使用的约定、CorCenCC、Siarad、CIG1和CIG2语料库中的约定，以及通过团队在转录任务中进行持续开发而制定的。

省略号

省略号不用于标记说话者省略的每个字母。例如，gwitho（gweithio_的发音）是正确的，而不是_gw’itho。相反，省略号用于区分拼写相同的不同单词。例如，我们在_’ma_（yma_的发音）前使用省略号以区分_ma’（_mae_的发音），goro_用于区分_gorfod_和第三人称单数现在时依赖形式_gori，_pwysa_用于区分_pwys_的复数形式和_pwyso_的多种可能动词形式。

非语言声音

努力一致地转录非语言声音。例如，_yy_总是用于表示或反映说话者在思考或暂停说话时发出的声音。

英语单词

每个英语单词或短语都用星号包围，例如：

Dwi’n deall sort of.

将英语单词作为威尔士语不定式

当说话者将英语单词用作不定式（例如在单词末尾添加_io_）时，我们努力使用威尔士语拼写约定拼写单词，而不是在英语拼写中添加_io_。例如，我们转录_heitio_而不是_hateio_，lyfio_而不是_loveio。

纠正发音错误

为了确保我们遵守逐字转录的原则，决定不纠正说话者的发音错误。例如，在以下句子中：

enfawr fel y diffyg o fwyd yym efallu cam-drin

很明显，_efallai_是预期的单词，但它被转录为听到的样子。

标点符号

在转录过程中使用句号、问号和感叹号。

逗号的用法

由于逗号基本上是书面文本的约定，因此在转录过程中不大量使用逗号。

字母拼写

单个字母的拼写而不是仅转录单个字母。

数字

数字被转录为单词而不是数字。

单词中途结束

标记中途结束的单词。

句子中途结束/重新开始句子

标记中途结束的句子。

说话者打断另一个说话者

在数据中有很多例子，说话者通过使用非语言声音、单词或短语（如_m-hm_、ie、ydi、_yn union_等）打断主要语音。当两个说话者的声音清晰可辨时，在被打断语音的末尾和重新开始的部分开头使用...。

语调

在转录过程中不忽略语调。

未来

在使用此转录库时应记住，这是一个初始版本。我们计划进一步完善和扩展我们的转录文本，并定期添加更多转录文本到库中。

限制

为了保护贡献者，下载此数据时，您同意不尝试识别数据中的说话者。

致谢

感谢贡献者允许使用他们的语音。我们还感谢威尔士政府资助此工作作为威尔士语文本、语音和翻译技术项目的一部分。

5,000+

优质数据集

54 个

任务类型

进入经典数据集