five

Numb3rs

收藏
Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/nvidia/Numb3rs
下载链接
链接失效反馈
官方服务:
资源简介:
Numb3rs_NV 是一个用于文本归一化(TN)和逆文本归一化(ITN)任务的语音数据集,包含配对的书面形式与口语形式及其对应的合成音频。数据集创建过程包括从Google文本归一化数据集中提取文本归一化对,使用NVIDIA的Magpie TTS模型合成音频,并经过人工验证。数据集涵盖12类数字相关表达,如地址、基数、日期、小数、数字序列、分数、度量、货币、序数、纯数字词、电话号码和时间表达,共计10,131个样本,总时长为4.89小时,平均每个样本时长为1.74秒。每个样本的元数据包括文件名、样本标识、音频时长、类别、原始文本、口语文本和语言代码。数据集兼容NeMo,并采用CC-BY-NC-SA-4.0许可协议。
提供机构:
NVIDIA
创建时间:
2026-02-06
原始信息汇总

Numb3rs - Numbers Speech Benchmark 数据集概述

数据集基本信息

  • 数据集名称:Numb3rs - Numbers Speech Benchmark (Dataset)
  • 发布者:nvidia
  • 许可证:CC-BY-NC-SA-4.0
  • 主要任务类别:自动语音识别
  • 语言:英语
  • 数据规模:10K<n<100K
  • 样本总数:10,131
  • 总音频时长:4.89小时
  • 平均音频时长:1.74秒

数据集内容与结构

数据集包含12个类别的数字相关语音样本,每个样本均包含成对的书面形式与口语形式及其对应的合成音频。

数据类别与统计

类别 样本数 总时长 平均时长 描述
ADDRESS 885 18.7分钟 1.26秒 高速公路/道路标识符
CARDINAL 780 14.5分钟 1.11秒 基数词
DATE 977 30.6分钟 1.88秒 日期表达式
DECIMAL 928 24.9分钟 1.61秒 十进制数字
DIGIT 771 17.8分钟 1.39秒 数字序列
FRACTION 884 23.4分钟 1.59秒 分数值
MEASURE 914 27.7分钟 1.82秒 度量单位
MONEY 775 26.8分钟 2.07秒 货币金额
ORDINAL 957 14.3分钟 0.90秒 序数词
PLAIN 377 9.6分钟 1.52秒 纯数字单词
TELEPHONE 936 61.3分钟 3.93秒 电话号码
TIME 947 24.1分钟 1.53秒 时间表达式

数据集创建

  1. 源数据:文本归一化对源自Google Text Normalization数据集。
  2. 音频生成:使用NVIDIA的Magpie TTS(多语言文本转语音模型)合成音频,通过6种预定义声音确保说话人多样性。
  3. 人工验证:所有生成的样本均经过人工标注者手动验证,仅保留通过质量审查的实体。

使用方法

python from datasets import load_dataset dataset = load_dataset("NNstuff/Numb3rs_NV")

元数据模式

字段 类型 描述
file_name 字符串 音频文件的相对路径
name 字符串 原始样本标识符
duration 浮点数 音频时长(秒)
category 字符串 类别名称
original_text 字符串 书面形式(TN输入)
text 字符串 口语形式(ITN输入)
lang 字符串 语言代码

兼容性

  • 为NeMo用户提供NeMo格式的清单文件。
  • manifest.jsonl:完整数据集清单。
  • manifests/by_category/*.jsonl:按类别划分的清单。
搜集汇总
数据集介绍
main_image_url
构建方式
在语音处理领域,文本归一化与逆文本归一化任务对提升语音识别系统的鲁棒性至关重要。Numb3rs数据集的构建采用了严谨的多阶段流程:首先从Google文本归一化数据集中提取书面形式与口语形式的配对数据,作为基础语料;随后利用NVIDIA的Magpie TTS模型合成音频,并引入六种预定义音色以确保说话人多样性;最后通过人工验证环节对生成样本进行质量审核,仅保留符合标准的实体,从而保证了数据的高质量与可靠性。
特点
该数据集涵盖了十二个语义类别,包括地址、基数、日期、小数、数字序列、分数、度量、货币、序数、纯数字词、电话号码及时间表达,共计一万余条样本,总时长约4.89小时。每个类别均具有明确的定义与示例,如货币类将“$100”映射为“one hundred dollars”。数据集中音频平均时长为1.74秒,结构清晰且标注完整,支持直接用于模型训练与评估,为语音处理研究提供了丰富而系统的资源。
使用方法
使用者可通过Hugging Face的datasets库便捷加载数据集,并利用其提供的元数据字段进行灵活处理。数据集中包含原始文本、口语文本、音频路径及类别标签,便于构建文本到语音或语音到文本的管道。此外,数据集还提供了与Nemo框架兼容的清单文件,支持按类别分割使用,有助于针对特定语义领域进行模型微调或基准测试。
背景与挑战
背景概述
Numb3rs数据集作为语音文本归一化与逆归一化任务的专用基准,由NVIDIA等机构的研究团队于近年构建,旨在应对自然语言处理中数字、日期、货币等非标准文本的语音转换挑战。该数据集源于谷歌文本归一化数据,通过Magpie TTS合成多说话人音频,并经过人工验证,覆盖地址、基数、时间等十二个语义类别,为语音合成与识别系统提供了高质量的配对数据,显著推动了语音技术在处理复杂实体表达方面的进展。
当前挑战
在领域层面,该数据集致力于解决文本归一化与逆归一化中实体表达的歧义性与多样性问题,例如同一数字在不同语境下可能对应多种口语形式,增加了模型泛化难度。构建过程中,挑战主要集中于合成音频的自然度与一致性保障,需通过多说话人配置与人工审核来平衡数据规模与质量,同时确保跨类别样本的均衡分布,以支持鲁棒的模型训练。
常用场景
经典使用场景
在语音技术领域,Numb3rs数据集为文本归一化与逆文本归一化任务提供了关键资源。其经典应用场景在于训练和评估自动语音识别系统,特别是处理数字、日期、货币等非标准文本的语音转换。通过涵盖地址、基数、日期、小数、数字序列、分数、度量、货币、序数、普通数字词、电话号码和时间等12个类别,该数据集能够全面模拟现实世界中复杂数字表达的语音识别需求,助力模型学习从书面形式到口语形式的精确映射。
实际应用
在实际应用中,Numb3rs数据集广泛应用于智能助手、金融交易系统、导航服务和客户支持自动化等场景。例如,在虚拟助理中,它帮助系统准确理解用户提及的日期或金额;在银行应用中,确保语音交互时货币转换的可靠性;在导航设备中,提升地址和电话号码的识别精度。这些应用不仅增强了人机交互的流畅性,还降低了人工处理成本,为商业和日常服务提供了高效、可靠的语音解决方案。
衍生相关工作
基于Numb3rs数据集,衍生出多项经典研究工作,主要集中在端到端语音识别模型的优化和跨语言文本归一化扩展。例如,研究者利用该数据集训练神经网络模型,以改进数字实体的识别准确率;同时,结合NVIDIA的Magpie TTS技术,推动了多语言语音合成在数字表达上的应用。这些工作不仅拓展了数据集的学术价值,还为语音技术社区提供了可复现的基准,促进了文本归一化领域的方法创新和标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作