five

NISP-A Multilingual Multi-accent Dataset for Speaker Profiling

收藏
github2024-01-19 更新2024-05-31 收录
下载链接:
https://github.com/iiscleap/NISP-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含语音记录以及说话人的物理参数(身高、体重等),以及地区和语言信息。共有345名说话人(219名男性和126名女性),数据集中的句子取自报纸。每位说话人贡献了约4-5分钟的数据,包括英语和其母语的录音。文本转录以UTF-8格式提供。

This dataset comprises voice recordings along with speakers' physical parameters (such as height, weight, etc.), as well as regional and linguistic information. It includes a total of 345 speakers (219 males and 126 females), with sentences in the dataset extracted from newspapers. Each speaker contributed approximately 4-5 minutes of data, including recordings in both English and their native language. The text transcriptions are provided in UTF-8 format.
创建时间:
2020-05-11
原始信息汇总

NISP-Dataset 概述

数据集内容

  • 语音记录:包含345位说话者的录音,其中219位男性,126位女性。
  • 说话者信息:每位说话者的物理参数(如身高、体重等)、地区信息和语言信息。
  • 录音内容:每位说话者提供约4-5分钟的录音,包括英语及其母语。
  • 文本转录:转录文本以UTF-8格式提供。

说话者参数

  • 性别:男/女
  • 母语:五种语言之一
  • 是否能读母语:是/否
  • 教学语言:五种语言之一
  • 与朋友交流的语言:五种语言之一
  • 年龄:岁
  • 身高:厘米
  • 腰围:厘米
  • 肩宽:厘米
  • 体重:千克
  • 出生地/成长地:地区和州
  • 当前居住地:地区和州

数据组织

  • 录音分隔:母语和英语的录音在不同会话中进行。
  • 文件结构:数据集包含五个文件夹,每个文件夹对应一种母语,包含语音文件和对应的转录文件。
  • 文件命名规则
    • .wav文件:(母语)(说话者ID)(录音语言)(性别)(话语ID).wav
    • .txt文件:(母语)(说话者ID)(录音语言)_(性别).txt

语言标识

  • 英语:Eng
  • 印地语:Hin
  • 卡纳达语:Kan
  • 马拉雅拉姆语:Mal
  • 泰米尔语:Tam
  • 泰卢固语:Tel

说话者信息文件

  • total_spkrinfo.list:包含说话者ID、性别、母语、身高、肩宽、腰围、体重、年龄、出生州和地区等详细信息。
  • test_spkrID:测试说话者列表。
  • train_spkrID:训练说话者列表。

数据提取说明

  • 合并压缩文件:使用命令 cat RECS.tar.gz.a* > Complete.tar.gz
  • 解压缩:使用命令 gzip -dc Complete.tar.gz | tar -xvzf -
搜集汇总
数据集介绍
main_image_url
构建方式
NISP数据集构建过程中,研究人员采集了345名来自不同语言背景的说话者的语音数据,包括219名男性和126名女性。每位说话者贡献了约4-5分钟的录音,涵盖英语及其母语的句子,这些句子选自报纸文章。录音分为母语和英语两个独立会话进行。数据集还包含了每位说话者的物理参数(如身高、体重)以及地域和语言信息,所有信息均存储在CSV文件中。语音文件和对应的文本转录文件分别按语言文件夹组织,文件命名遵循特定格式以确保数据的一致性和可追溯性。
使用方法
使用NISP数据集时,研究人员首先需要通过命令行工具将压缩文件解压,以获取完整的语音和文本数据。数据集的文件命名规则清晰,语音文件以“.wav”格式存储,文本转录文件以“.txt”格式存储,文件名中包含了说话者ID、语言、性别等信息,便于数据检索和分析。数据集还提供了训练集和测试集的划分,研究人员可以根据需要直接使用这些划分进行模型训练和评估。此外,数据集中的元数据文件(如speaker_details.csv)为说话者特征的进一步分析提供了便利。
背景与挑战
背景概述
NISP数据集是一个多语言多口音的说话者特征分析数据集,创建于2020年,由多个研究机构合作开发。该数据集包含了345名说话者的语音录音,涵盖了英语及其母语的录音,并提供了详细的说话者物理参数、区域信息和语言信息。数据集的核心研究问题在于通过语音数据推断说话者的性别、年龄、身高、体重等特征,以及其语言背景和口音信息。NISP数据集在语音识别、说话者特征分析和多语言处理领域具有重要的影响力,为相关研究提供了丰富的数据支持。
当前挑战
NISP数据集在解决说话者特征分析问题时面临多重挑战。首先,多语言和多口音的复杂性使得模型需要具备跨语言的泛化能力,这对算法的设计和训练提出了更高的要求。其次,数据集中包含了不同语言和口音的混合录音,如何准确提取和区分这些特征是一个技术难点。在数据构建过程中,研究人员需要确保录音的质量和一致性,同时还要处理不同语言之间的转录和标注问题。此外,数据集的多样性和复杂性也增加了数据清洗和预处理的难度,如何有效利用这些数据并避免噪声干扰是另一个重要挑战。
常用场景
经典使用场景
NISP数据集在多语言多口音的语音分析领域具有广泛的应用。该数据集包含了345位说话者的语音录音及其相关的物理参数和区域信息,特别适用于研究不同语言和口音对语音特征的影响。研究者可以利用该数据集进行语音识别、说话者特征分析以及多语言语音模型的训练与测试。
解决学术问题
NISP数据集解决了多语言环境下语音分析的复杂性问题。通过提供多种语言和口音的语音样本,该数据集为研究者提供了丰富的实验材料,有助于深入探讨语言多样性对语音识别和说话者特征提取的影响。此外,数据集中的物理参数和区域信息为跨文化语音研究提供了重要支持,推动了语音分析领域的跨学科发展。
实际应用
在实际应用中,NISP数据集被广泛用于开发多语言语音识别系统和说话者特征分析工具。例如,该数据集可以用于训练智能语音助手,使其能够更好地理解和处理不同语言和口音的语音输入。此外,该数据集还可用于开发个性化的语音识别系统,根据用户的语音特征进行定制化服务,提升用户体验。
数据集最近研究
最新研究方向
在语音识别和说话人分析领域,NISP数据集以其多语言、多口音的特性,为研究者提供了丰富的语音样本和详细的说话人物理参数。该数据集的最新研究方向集中在利用深度学习技术,从多语言语音数据中提取说话人的生物特征,如性别、年龄、身高和体重等。此外,研究者们还在探索如何通过语音数据推断说话人的地域背景和语言习惯,这对于开发更加智能和个性化的语音识别系统具有重要意义。NISP数据集的应用不仅限于语音识别,还扩展到了语音合成、语音情感分析等多个前沿领域,为多语言环境下的语音技术研究提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作