carlosdanielhernandezmena/ravnursson_asr
收藏Hugging Face2023-07-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carlosdanielhernandezmena/ravnursson_asr
下载链接
链接失效反馈官方服务:
资源简介:
RAVNURSSON FAROESE SPEECH AND TRANSCRIPTS(简称RAVNURSSON语料库)是一个用于法罗语自动语音识别(ASR)的语音和转录文本的集合。该语料库由雷克雅未克大学在2022年整理,源自法罗群岛的Ravnur项目开发的Basic Language Resource Kit 1.0(BLARK 1.0)。数据集包含433名15至83岁的说话者的语音记录,分为三个年龄组:15-35岁、36-60岁和61岁以上。语音文件由249名女性和184名男性说话者录制,总时长为109小时9分钟。数据集分为训练、验证和测试三个部分,分别用于不同的模型训练和评估任务。
annotations_creators:
- 专家生成(expert-generated)
language:
- 法罗语(Faroese)
language_creators:
- 专家生成(expert-generated)
license:
- CC-BY-4.0
multilinguality:
- 单语言(monolingual)
pretty_name: RAVNURSSON 法罗语语音与转录数据集
size_categories:
- 10K<n<100K
source_datasets:
- 原始数据集(original)
tags:
- 法罗群岛(Faroe Islands)
- 法罗语(Faroese)
- Ravnur项目(Ravnur Project)
- 法罗语自动语音识别(speech recognition in faroese)
task_categories:
- 自动语音识别(automatic-speech-recognition)
task_ids: []
# ravnursson_asr 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持的任务与排行榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建依据](#curation-rationale)
- [源数据](#source-data)
- [注释](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集管护者](#dataset-curators)
- [许可证信息](#licensing-information)
- [引用信息](#citation-information)
- [致谢](#contributions)
## 数据集描述
- **主页:** [RAVNURSSON 法罗语语音与转录数据集](http://hdl.handle.net/20.500.12537/276)
- **代码仓库:** [Clarin.is](http://hdl.handle.net/20.500.12537/276)
- **相关论文:** [法罗语自动语音识别语言资源](https://aclanthology.org/2023.nodalida-1.4.pdf)
- **相关论文:** [为法罗语构建基础语言资源工具包](https://aclanthology.org/2022.lrec-1.495.pdf)
- **联系方式:** [Annika Simonsen](mailto:annika.simonsen@hotmail.com)、[Carlos Mena](mailto:carlos.mena@ciempiess.org)
### 数据集概述
本语料库“RAVNURSSON 法罗语语音与转录数据集”(简称RAVNURSSON语料库)是一批带转录文本的语音录音合集,专为法罗群岛使用的法罗语(Faroese)自动语音识别(Automatic Speech Recognition, ASR)应用打造,于2022年由雷克雅未克大学(Reykjavík University, RU)完成遴选构建。
RAVNURSSON语料库源自法罗群岛Ravnur项目开发的“基础语言资源工具包1.0”(Basic Language Resource Kit 1.0,简称BLARK 1.0)[1]。事实上,“RAVNURSSON”这一名称取自Ravnur(致敬Ravnur项目)以及冰岛语中意为“……之子”的后缀“son”,因此“RAVNURSSON”可理解为“Ravnur之子(冰岛语语境下)”,双写“s”仅为美观考量。
语音数据通过录制朗读文本的说话人采集得到,参与者年龄覆盖15至83岁,分为三个年龄段:15-35岁、36-60岁以及61岁以上。
本语料库共包含433名说话人的语音文件,其中女性说话人249名,男性184名。录音采用TASCAM DR-40线性脉冲编码调制(Linear PCM)录音机,内置立体声麦克风录制,初始格式为16位WAV文件,采样率48kHz;后续为适配本语料库,统一重采样为16kHz、16位单声道格式。
[1] Simonsen, A., Debess, I. N., Lamhauge, S. S., & Henrichsen, P. J. Creating a basic language resource kit for Faroese. In LREC 2022. 13th International Conference on Language Resources and Evaluation.
[2] 官网. Talutøkni基金会下属Ravnur项目 https://maltokni.fo/en/the-ravnur-project
### 示例用法
RAVNURSSON语料库分为训练集(train)、验证集(validation)与测试集(test)三个划分。若需加载特定划分,可将划分名称作为配置名称传入:
python
from datasets import load_dataset
ravnursson = load_dataset("carlosdanielhernandezmena/ravnursson_asr")
若需加载特定子集(例如验证集),可执行如下代码:
python
from datasets import load_dataset
ravnursson = load_dataset("carlosdanielhernandezmena/ravnursson_asr",split="validation")
### 支持的任务
自动语音识别:本数据集可用于训练自动语音识别(ASR)模型。模型输入为音频文件,目标是将音频转录为书面文本,最常用的评估指标为词错误率(Word Error Rate, WER)。
### 语言
语音数据均采用法罗语录制。RAVNURSSON语料库的朗读提示文本由专业语言学家生成,整个语料库在语音学与方言覆盖度上经过均衡处理;测试集与验证集均实现性别均衡。本数据集包含可计算机检索的表格数据与书面文档。
## 数据集结构
### 数据实例
python
{
'audio_id': 'KAM06_151121_0101',
'audio': {
'path': '/home/carlos/.cache/HuggingFace/datasets/downloads/extracted/32b4a757027b72b8d2e25cd9c8be9c7c919cc8d4eb1a9a899e02c11fd6074536/dev/RDATA2/KAM06_151121/KAM06_151121_0101.flac',
'array': array([ 0.0010376 , -0.00521851, -0.00393677, ..., 0.00128174,
0.00076294, 0.00045776], dtype=float32),
'sampling_rate': 16000
},
'speaker_id': 'KAM06_151121',
'gender': 'female',
'age': '36-60',
'duration': 4.863999843597412,
'normalized_text': 'endurskin eru týdningarmikil í myrkri',
'dialect': 'sandoy'
}
> 字段说明:
> - `audio_id`:音频片段唯一标识符
> - `audio`:包含音频文件路径、解码后的音频数组与采样率的字典。非流式模式(默认)下,路径指向本地已提取的音频文件;流式模式下,路径为音频在归档文件内的相对路径(因文件未在本地下载提取)
> - `speaker_id`:说话人唯一标识符
> - `gender`:说话人性别,可选值为`male`(男性)或`female`(女性)
> - `age`:说话人年龄区间:青年(15-35岁)、中年(36-60岁)或老年(61岁及以上)
> - `duration`:音频文件时长,单位为秒
> - `normalized_text`:经标准化处理的音频转录文本
> - `dialect`:说话人所属方言区,例如`Suðuroy`(苏杜罗伊)或`Sandoy`(桑多伊)
### 数据字段
* `audio_id` (string):音频片段唯一标识符
* `audio` (datasets.Audio):包含音频文件路径、解码后的音频数组与采样率的字典。非流式模式(默认)下,路径指向本地已提取的音频文件;流式模式下,路径为音频在归档文件内的相对路径(因文件未在本地下载提取)
* `speaker_id` (string):说话人唯一标识符
* `gender` (string):说话人性别,可选值为`male`(男性)或`female`(女性)
* `age` (string):说话人年龄区间:青年(15-35岁)、中年(36-60岁)或老年(61岁及以上)
* `duration` (float32):音频文件时长,单位为秒
* `normalized_text` (string):经标准化处理的音频转录文本
* `dialect` (string):说话人所属方言区,例如`Suðuroy`(苏杜罗伊)或`Sandoy`(桑多伊)
### 数据划分
语音数据被划分为训练集、验证集与测试集三个子集。各子集总时长分别为:训练集100小时08分,测试集4小时30分,验证集4小时30分。
如需加载特定子集,请参考上文“示例用法”章节。
验证集与测试集各自均包含10名男性与10名女性说话人,且二者总时长完全一致(均为4.5小时)。
## 数据集构建
### 构建依据
语料库的所有语音文件均存储于名为“speech”的目录下,该目录又分为`train`、`dev`与`test`三个子目录。训练集进一步分为`RDATA1O`、`RDATA1OP`与`RDATA2`三类录音文件,这一划分源自原始BLARK 1.0的录音组织方式,原始数据中录音被分为`Rdata1`与`Rdata2`两类。
`Rdata1`与`Rdata2`的核心区别之一在于:`Rdata2`的朗读环境由原始BLARK 1.0内置的`PushPrompt`软件管控。另一核心区别为:`Rdata1`中部分转录文本带有音素级标注。因此,RAVNURSSON语料库`speech`目录下的音频文件被分为`RDATA1O`(“O”代表“正字法(Orthographic)”)与`RDATA1OP`(“O”代表正字法、“P”代表音素级(phonetic))两类文件夹。
验证集与测试集的数据仅来自无音素级标注的`Rdata2`。需特别说明的是,RAVNURSSON语料库仅包含正字法级别的转录文本。
### 源数据
#### 初始数据采集与标准化
本数据集发布的标准化文本仅为正字法级别的小写文本。标准化流程通过自动移除标点符号与法罗语字母表以外的字符完成。
#### 源语言数据提供者是谁?
* 语音录制采用TASCAM DR-40设备完成。
* 参与者自行申报所属年龄组、性别、母语与方言。
* 参与者年龄区间为15至83岁。
* 本语料库共包含来自433名说话人的71949条语音文件,总时长为109小时09分钟。
### 注释
#### 注释流程
大部分朗读提示文本由专家从法罗语文本语料库(新闻、博客、维基百科等)中遴选并编辑以适配格式;针对特定领域(如法罗语地名、数字、车牌、报时等)的朗读提示文本由Ravnur项目组编写。随后,名为`PushPrompt`的软件工具被用于朗读录制环节:该软件会将朗读材料中的文本条目展示给朗读人,支持交互管控录制流程(如调整朗读语速、按需重复录制、插入短暂休息等)。录制完成后,会生成符合TextGrid格式的数据表格形式的日志文件,包含每条语音的时间戳信息。
#### 注释者是谁?
本语料库由[Ravnur项目](https://maltokni.fo/en/the-ravnur-project)完成注释。
### 个人与敏感信息
本数据集包含自愿捐赠语音数据的个人信息。使用本数据集时,您同意不会尝试识别数据中说话人的身份。
## 数据集使用注意事项
### 数据集的社会影响
这是首个法罗语自动语音识别语料库。
### 偏差讨论
由于朗读提示文本的数量有限,RAVNURSSON语料库的一个共性特征为:同一条提示文本会被多名朗读人录制。这一特征需要特别注意,因为自动语音识别任务中通常会使用训练集中的提示文本构建语言模型,但RAVNURSSON语料库的多个子集共享大量提示文本,若按常规流程操作会在语言建模任务中引入显著偏差。
本章节将展示语料库各子集内重复提示文本的相关统计数据:
- 训练集:
* 总提示文本数 = 65616
* 唯一提示文本数 = 38646
训练集中共有26970条重复提示文本,占比41.1%。
- 测试集:
* 总提示文本数 = 3002
* 唯一提示文本数 = 2887
测试集中共有115条重复提示文本,占比3.83%。
- 验证集:
* 总提示文本数 = 3331
* 唯一提示文本数 = 3302
验证集中共有29条重复提示文本,占比0.87%。
- 全语料库维度:
* 总提示文本数 = 71949
* 唯一提示文本数 = 39945
全语料库中共计32004条重复提示文本,占比44.48%。
> 注意:还需特别说明的是,语料库的三个子集之间无重叠的说话人。
### 其他已知局限性
由Carlos Daniel Hernández Mena与Annika Simonsen发布的“RAVNURSSON 法罗语语音与转录数据集”采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International, CC BY 4.0)进行授权。本数据集按“现状”提供,不附带任何明示或暗示的担保,包括但不限于适销性、特定用途适用性的担保。
## 附加信息
### 数据集管护者
本数据集由Annika Simonsen采集,由Carlos Daniel Hernández Mena完成管护。
### 许可证信息
[CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/)
### 引用信息
bibtex
@misc{carlosmenaravnursson2022,
title={Ravnursson Faroese Speech and Transcripts},
author={Hernandez Mena, Carlos Daniel and Simonsen, Annika},
year={2022},
url={http://hdl.handle.net/20.500.12537/276},
}
### 致谢
本项目依托2019-2023年冰岛语言技术计划完成,该计划由Almannarómur负责管理与协调,资助方为冰岛教育、科学与文化部。特别感谢雷克雅未克大学教授、语言与语音实验室(Language and Voice Lab, LVL)负责人Jón Guðnason博士提供计算资源支持。
提供机构:
carlosdanielhernandezmena
原始信息汇总
数据集概述
数据集名称
- 名称: RAVNURSSON FAROESE SPEECH AND TRANSCRIPTS
- 简称: RAVNURSSON Corpus
数据集描述
- 目的: 用于自动语音识别(ASR)应用,特别是在Faroese语言中。
- 内容: 包含语音录音及其转录,由249名女性和184名男性共433名发言者参与,年龄范围为15至83岁。
- 技术细节: 录音使用TASCAM DR-40线性PCM音频记录器,原始采样率为48kHz,后降采样至16kHz。
数据集结构
- 数据实例: 每个实例包含音频ID、音频文件路径、发言人ID、性别、年龄、音频时长、标准化文本和方言。
- 数据字段: 包括音频ID、音频文件、发言人ID、性别、年龄、音频时长、标准化文本和方言。
- 数据分割: 分为训练集、验证集和测试集,其中训练集时长为100小时8分钟,验证集和测试集各为4小时30分钟。
数据集创建
- 来源: 数据集是从Ravnur项目的基础语言资源套件1.0(BLARK 1.0)中提取的。
- 注释过程: 阅读提示由专家从Faroese文本语料库中选择,并使用PushPrompt软件进行录音。
- 注释者: 由Ravnur项目进行注释。
使用注意事项
- 重复提示: 数据集中存在大量重复提示,约44.48%的提示在不同部分重复。
- 许可证: 数据集根据CC-BY-4.0许可证发布。
附加信息
- 数据集管理: 由Annika Simonsen收集,Carlos Daniel Hernández Mena整理。
- 贡献: 该项目由冰岛语言技术计划2019-2023支持,由冰岛教育和文化部资助。



