five

dexterity-pidgin-voice-dataset-v1

收藏
Hugging Face2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/DexterityLearn/dexterity-pidgin-voice-dataset-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Dexterity Pidgin语音数据集样本v1是一个收集自尼日利亚皮钦语自然讲述内容的短语音片段集合。该数据集旨在捕捉真实的口语皮钦语,支持AI系统理解真实的皮钦语表达。数据集注重自然、非脚本化的对话表达,适用于真实世界的AI交互场景。数据集包含45个音频片段,总时长约4-5分钟,采用WAV格式,16位单声道录音(在安静的室内环境中使用手机麦克风录制)。每个片段的长度为3至10秒,由一位尼日利亚女性以讲述故事的方式录制。所有转录文本均按照实际发音书写,未进行标准化或翻译。数据集适用于语音识别(ASR)、对话式AI系统、语音和对话建模、情感和语调检测以及低资源语言建模(非洲语言AI系统)。该数据集目前处于早期阶段,旨在填补非洲语言AI领域的空白,未来计划扩展到更多说话者、口音和更广泛的对话场景。
创建时间:
2026-04-12
原始信息汇总

Dexterity Pidgin Voice Dataset — Sample v1 数据集概述

数据集基本信息

  • 数据集名称: Dexterity Pidgin Voice Dataset — Sample v1
  • 许可协议: CC BY 4.0
  • 创建者: Nkechi Adimora
  • 所属项目: Dexterity Learn
  • 创建日期: 2026年4月

语言与内容

  • 语言: 尼日利亚皮钦英语
  • 内容描述: 数据集包含源自自然叙事内容的短篇尼日利亚皮钦语语音片段。录音捕捉了对话语调、情感表达和真实的社会语境,旨在支持人工智能系统理解地道的口语皮钦语。
  • 转录特点: 所有转录均按原样记录口语,未经标准化或翻译。
  • 样本转录示例: "Woman no be toy, woman no be shame"

数据集构成

  • 总片段数: 45
  • 总时长: 约4–5分钟
  • 音频格式: WAV,16位,单声道(在安静的室内环境中使用手机录制)
  • 片段长度: 3 – 10秒
  • 说话人: 1位(女性,尼日利亚人,采用对话式叙事风格)
  • 录制环境: 安静的室内环境(使用手机麦克风)

文件结构

  • 音频文件: audio_01.wav, audio_02.wav 等
  • 元数据文件: metadata.csv
  • 说明文件: README.txt
  • 文件关联说明: 每个音频文件均在 metadata.csv 中有对应条目,包含转录文本和标签。

预期用途

本数据集适用于:

  • 语音识别
  • 对话式人工智能系统
  • 语音与对话建模
  • 情感与语调检测
  • 低资源语言建模(非洲语言人工智能系统)

附加说明

  • 本数据集为示例数据集,旨在展示结构、音频质量及对话式皮钦语的使用。
  • 数据集设计为可扩展至多说话人、多口音及更广泛的对话场景。
  • 这是一个早期阶段的皮钦英语语音数据集,旨在弥补非洲语言人工智能领域的空白。创建者正在积极构建和扩展此数据集(增加更多说话人、更多数据、更完善的结构)。
  • 联系方式: dexteritylearnhq@gmail.com
  • LinkedIn: nkechiadimora
搜集汇总
数据集介绍
main_image_url
构建方式
在低资源语言人工智能研究领域,尼日利亚皮钦语语音数据的稀缺性构成了显著挑战。dexterity-pidgin-voice-dataset-v1 的构建源于对这一空白的直接回应,其采集过程专注于自然叙事内容。数据集通过单一尼日利亚女性讲述者在安静室内环境中,使用手机麦克风录制了45段时长3至10秒的对话式语音片段,总时长约4至5分钟。所有录音均以16位单声道WAV格式保存,并辅以逐字转录的文本,转录文本严格遵循口语表达,未进行任何标准化或翻译处理,从而确保了语言的原生真实性。
特点
该数据集的核心特征在于其对真实对话语境的忠实捕捉。与常见的孤立短语库不同,它收录的语音片段均源自自然的讲故事内容,蕴含丰富的会话语调、情感表达和真实社交语境。这种设计使其能够支持人工智能系统理解地道的口语皮钦语,尤其适用于现实世界的人机交互场景。作为早期阶段的皮钦语语音资源,它虽规模有限,但为非洲语言人工智能的发展提供了宝贵的种子数据,并规划在未来扩展至更多说话者、口音及更广泛的对话情境。
使用方法
鉴于其内容特性,该数据集主要服务于语音技术及自然语言处理的研究与应用。研究者可将其用于训练或评估尼日利亚皮钦语的自动语音识别系统,以提升对非标准英语变体的理解能力。同时,它也为构建对话式人工智能、进行语音与对话建模提供了关键素材。在情感与语调检测任务中,其富含情感的叙事风格具有独特价值。此外,该数据集尤其适合作为低资源语言建模的基准,助力于填补非洲语言人工智能领域的资源缺口,推动相关技术的包容性发展。
背景与挑战
背景概述
在人工智能与自然语言处理领域,低资源语言的语音数据长期处于稀缺状态,尤其是非洲本土语言如尼日利亚皮钦语。Dexterity Pidgin Voice Dataset v1 由 Nkechi Adimora 于 2026 年 4 月创建,作为 Dexterity Learn 项目的一部分,旨在填补这一空白。该数据集聚焦于自然、非脚本化的对话式叙事内容,捕捉真实社交语境中的情感表达与语调变化,核心研究问题在于提升 AI 系统对口语化皮钦语的理解能力,为非洲语言 AI 系统的发展提供关键数据支持,推动语音识别、对话建模及情感检测等技术的跨语言应用。
当前挑战
该数据集致力于解决低资源语言语音识别与自然语言处理的挑战,具体包括尼日利亚皮钦语缺乏标准化文本、语音变体丰富以及真实对话语境建模困难等问题。在构建过程中,面临数据采集规模有限、单一说话者样本代表性不足、录音环境虽安静但设备受限导致的音频质量一致性维护等挑战。此外,如何扩展至多说话者、多口音及更广泛对话场景,以增强数据多样性与泛化能力,亦是当前亟待突破的关键。
常用场景
经典使用场景
在低资源语言的人工智能研究中,dexterity-pidgin-voice-dataset-v1 数据集为尼日利亚皮钦语的语音识别和对话系统开发提供了关键支持。该数据集收录了自然叙事内容中的短语音片段,捕捉了对话语调、情感表达和真实社交语境,特别适用于训练能够理解真实口语皮钦语的AI模型。其未脚本化的对话交付方式,使得研究者和开发者能够在真实世界交互场景中测试和优化语音技术,弥补了非洲语言在语音数据方面的空白。
解决学术问题
该数据集主要解决了低资源语言在语音人工智能领域的学术研究问题,特别是在缺乏标准化语音数据的非洲语言环境中。通过提供自然、未脚本化的尼日利亚皮钦语语音样本,它支持了语音识别、情感检测和对话建模等方面的研究,促进了语言技术在多语言环境中的公平发展。其意义在于为学术界提供了一个可扩展的基础资源,推动了跨文化语言理解技术的进步,并对全球语言多样性保护产生了积极影响。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在低资源语言语音模型的优化和跨语言迁移学习方面。研究者利用其未脚本化的对话特性,开发了针对尼日利亚皮钦语的端到端语音识别系统,并探索了多说话人扩展和口音适应技术。这些工作不仅丰富了非洲语言AI的文献体系,还为其他低资源语言的语音数据处理提供了方法论参考,推动了全球语言技术生态的多元化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作