NISP-A Multilingual Multi-accent Dataset for Speaker Profiling

github2024-01-19 更新2024-05-31 收录

下载链接：

https://github.com/iiscleap/NISP-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含语音记录以及说话人的物理参数（身高、体重等），以及地区和语言信息。共有345名说话人（219名男性和126名女性），数据集中的句子取自报纸。每位说话人贡献了约4-5分钟的数据，包括英语和其母语的录音。文本转录以UTF-8格式提供。

This dataset comprises voice recordings along with speakers' physical parameters (such as height, weight, etc.), as well as regional and linguistic information. It includes a total of 345 speakers (219 males and 126 females), with sentences in the dataset extracted from newspapers. Each speaker contributed approximately 4-5 minutes of data, including recordings in both English and their native language. The text transcriptions are provided in UTF-8 format.

创建时间：

2020-05-11

原始信息汇总

NISP-Dataset 概述

数据集内容

语音记录：包含345位说话者的录音，其中219位男性，126位女性。
说话者信息：每位说话者的物理参数（如身高、体重等）、地区信息和语言信息。
录音内容：每位说话者提供约4-5分钟的录音，包括英语及其母语。
文本转录：转录文本以UTF-8格式提供。

说话者参数

性别：男/女
母语：五种语言之一
是否能读母语：是/否
教学语言：五种语言之一
与朋友交流的语言：五种语言之一
年龄：岁
身高：厘米
腰围：厘米
肩宽：厘米
体重：千克
出生地/成长地：地区和州
当前居住地：地区和州

数据组织

录音分隔：母语和英语的录音在不同会话中进行。
文件结构：数据集包含五个文件夹，每个文件夹对应一种母语，包含语音文件和对应的转录文件。
文件命名规则：
- .wav文件：(母语)(说话者ID)(录音语言)(性别)(话语ID).wav
- .txt文件：(母语)(说话者ID)(录音语言)_(性别).txt

语言标识

英语：Eng
印地语：Hin
卡纳达语：Kan
马拉雅拉姆语：Mal
泰米尔语：Tam
泰卢固语：Tel

说话者信息文件

total_spkrinfo.list：包含说话者ID、性别、母语、身高、肩宽、腰围、体重、年龄、出生州和地区等详细信息。
test_spkrID：测试说话者列表。
train_spkrID：训练说话者列表。

数据提取说明

合并压缩文件：使用命令 cat RECS.tar.gz.a* > Complete.tar.gz。
解压缩：使用命令 gzip -dc Complete.tar.gz | tar -xvzf -。

搜集汇总

数据集介绍

构建方式

NISP数据集构建过程中，研究人员采集了345名来自不同语言背景的说话者的语音数据，包括219名男性和126名女性。每位说话者贡献了约4-5分钟的录音，涵盖英语及其母语的句子，这些句子选自报纸文章。录音分为母语和英语两个独立会话进行。数据集还包含了每位说话者的物理参数（如身高、体重）以及地域和语言信息，所有信息均存储在CSV文件中。语音文件和对应的文本转录文件分别按语言文件夹组织，文件命名遵循特定格式以确保数据的一致性和可追溯性。

使用方法

使用NISP数据集时，研究人员首先需要通过命令行工具将压缩文件解压，以获取完整的语音和文本数据。数据集的文件命名规则清晰，语音文件以“.wav”格式存储，文本转录文件以“.txt”格式存储，文件名中包含了说话者ID、语言、性别等信息，便于数据检索和分析。数据集还提供了训练集和测试集的划分，研究人员可以根据需要直接使用这些划分进行模型训练和评估。此外，数据集中的元数据文件（如speaker_details.csv）为说话者特征的进一步分析提供了便利。

背景与挑战

背景概述

NISP数据集是一个多语言多口音的说话者特征分析数据集，创建于2020年，由多个研究机构合作开发。该数据集包含了345名说话者的语音录音，涵盖了英语及其母语的录音，并提供了详细的说话者物理参数、区域信息和语言信息。数据集的核心研究问题在于通过语音数据推断说话者的性别、年龄、身高、体重等特征，以及其语言背景和口音信息。NISP数据集在语音识别、说话者特征分析和多语言处理领域具有重要的影响力，为相关研究提供了丰富的数据支持。

当前挑战

NISP数据集在解决说话者特征分析问题时面临多重挑战。首先，多语言和多口音的复杂性使得模型需要具备跨语言的泛化能力，这对算法的设计和训练提出了更高的要求。其次，数据集中包含了不同语言和口音的混合录音，如何准确提取和区分这些特征是一个技术难点。在数据构建过程中，研究人员需要确保录音的质量和一致性，同时还要处理不同语言之间的转录和标注问题。此外，数据集的多样性和复杂性也增加了数据清洗和预处理的难度，如何有效利用这些数据并避免噪声干扰是另一个重要挑战。

常用场景

经典使用场景

NISP数据集在多语言多口音的语音分析领域具有广泛的应用。该数据集包含了345位说话者的语音录音及其相关的物理参数和区域信息，特别适用于研究不同语言和口音对语音特征的影响。研究者可以利用该数据集进行语音识别、说话者特征分析以及多语言语音模型的训练与测试。

解决学术问题

NISP数据集解决了多语言环境下语音分析的复杂性问题。通过提供多种语言和口音的语音样本，该数据集为研究者提供了丰富的实验材料，有助于深入探讨语言多样性对语音识别和说话者特征提取的影响。此外，数据集中的物理参数和区域信息为跨文化语音研究提供了重要支持，推动了语音分析领域的跨学科发展。

实际应用

在实际应用中，NISP数据集被广泛用于开发多语言语音识别系统和说话者特征分析工具。例如，该数据集可以用于训练智能语音助手，使其能够更好地理解和处理不同语言和口音的语音输入。此外，该数据集还可用于开发个性化的语音识别系统，根据用户的语音特征进行定制化服务，提升用户体验。

数据集最近研究