IndicVoices-R_Bengali

Hugging Face2024-11-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SPRINGLab/IndicVoices-R_Bengali

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种特征，如文本、语言、样本数量、原始文本、标准化文本、说话者ID、场景、任务名称、性别、年龄组、工作类型、教育程度、地区、区、州、职业、音高均值、音高标准差、信噪比、C50、说话速率、字符错误率、持续时间和音频。数据集分为训练集，包含39904个样本。数据集主要语言为孟加拉语（bn）。

创建时间：

2024-11-19

原始信息汇总

IndicVoices-R_Bengali 数据集概述

语言

孟加拉语 (bn)

数据集信息

特征

text: 文本内容，类型为字符串 (string)
lang: 语言标识，类型为类别标签 (class_label)，标签名称为 "bn"
samples: 样本数量，类型为整数 (int64)
verbatim: 逐字文本，类型为字符串 (string)
normalized: 归一化文本，类型为字符串 (string)
speaker_id: 说话者ID，类型为字符串 (string)
scenario: 场景类型，类型为类别标签 (class_label)，标签名称为 "Extempore" 和 "Read"
task_name: 任务名称，类型为字符串 (string)
gender: 性别，类型为类别标签 (class_label)，标签名称为 "Female" 和 "Male"
age_group: 年龄组，类型为类别标签 (class_label)，标签名称为 "18-30", "30-45", "45-60", "60+"
job_type: 工作类型，类型为类别标签 (class_label)，标签名称为 "Blue Collar", "Student", "Unemployed", "White Collar"
qualification: 学历，类型为类别标签 (class_label)，标签名称为 "No Schooling", "Post Grad + PhD", "Undergrad and Grad.", "Upto 12th"
area: 地区类型，类型为类别标签 (class_label)，标签名称为 "Rural" 和 "Urban"
district: 地区，类型为字符串 (string)
state: 州/省，类型为类别标签 (class_label)，标签名称为 "West Bengal"
occupation: 职业，类型为字符串 (string)
utterance_pitch_mean: 语音音调均值，类型为浮点数 (float64)
utterance_pitch_std: 语音音调标准差，类型为浮点数 (float64)
snr: 信噪比，类型为浮点数 (float64)
c50: 未知特征，类型为浮点数 (float64)
speaking_rate: 语速，类型为浮点数 (float64)
cer: 字符错误率，类型为字符串 (string)
duration: 持续时间，类型为浮点数 (float64)
audio: 音频数据，类型为音频 (audio)

数据分割

train: 训练集，包含 39904 个样本，数据大小为 77015380017.104 字节

数据集大小

下载大小: 71738544889 字节
数据集大小: 77015380017.104 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

搜集汇总

数据集介绍

构建方式

IndicVoices-R_Bengali数据集的构建基于孟加拉语语音数据，涵盖了多种社会经济背景的参与者。数据集通过收集不同性别、年龄、职业、教育水平和居住区域的个体语音样本，确保了数据的多样性和代表性。每个样本包括文本、语音特征、说话者信息以及语音质量参数，如音高、信噪比等，从而为语音识别和分析提供了丰富的上下文信息。

特点

该数据集的显著特点在于其广泛的社会经济和地理多样性，涵盖了从农村到城市的不同区域，以及从蓝领到白领的不同职业群体。此外，数据集还包含了详细的语音特征分析，如音高、语速和信噪比，这些特征对于语音处理和识别任务至关重要。多样化的说话者信息和语音样本使得该数据集在语音技术和语言学研究中具有重要价值。

使用方法

IndicVoices-R_Bengali数据集适用于多种语音处理任务，包括但不限于语音识别、语音合成和说话者识别。用户可以通过访问数据集的训练集进行模型训练，利用丰富的语音特征和说话者信息来优化模型性能。此外，数据集的多样性使其成为评估模型在不同社会经济和地理背景下的泛化能力的理想选择。

背景与挑战

背景概述

IndicVoices-R_Bengali数据集是由相关研究机构创建的，专注于孟加拉语（bn）语音数据的收集与分析。该数据集的创建旨在推动孟加拉语语音识别和处理技术的发展，特别是在多样的社会经济背景和地理区域中的应用。数据集包含了丰富的语音特征，如性别、年龄组、职业类型、教育程度、居住区域等，这些信息有助于构建更加全面和准确的语音模型。此外，数据集还涵盖了不同的语音场景，如即兴演讲和朗读，进一步增强了其在实际应用中的多样性和实用性。

当前挑战

IndicVoices-R_Bengali数据集在构建过程中面临多项挑战。首先，收集来自不同社会经济背景和地理区域的语音数据，确保数据的多样性和代表性，是一项复杂且耗时的任务。其次，处理和标准化这些语音数据，以确保其在语音识别系统中的有效性，也是一个技术难题。此外，数据集中包含的多种语音特征和场景，要求模型具备高度的适应性和鲁棒性，这对模型的设计和训练提出了更高的要求。最后，如何在保护个人隐私的同时，充分利用这些丰富的语音数据，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

IndicVoices-R_Bengali数据集在语音识别与处理领域中具有广泛的应用前景。其经典使用场景包括但不限于孟加拉语的语音识别模型训练、语音情感分析以及说话人识别。通过该数据集，研究者能够构建高精度的语音识别系统，尤其是在处理孟加拉语的口语表达时，能够有效提升模型的鲁棒性和准确性。

衍生相关工作

基于IndicVoices-R_Bengali数据集，研究者们开展了多项相关工作，包括但不限于多语言语音识别模型的优化、语音情感分析的深度学习模型构建以及说话人识别技术的改进。这些研究不仅推动了语音识别技术在孟加拉语中的应用，还为其他低资源语言的语音处理提供了宝贵的参考。此外，该数据集还激发了跨学科的研究，如语音与社会背景关系的探索，进一步丰富了语音处理领域的研究内容。

数据集最近研究