Numb3rs

Name: Numb3rs
Creator: NVIDIA
Published: 2026-02-06 22:32:39
License: 暂无描述

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/nvidia/Numb3rs

下载链接

链接失效反馈

官方服务：

资源简介：

Numb3rs_NV 是一个用于文本归一化（TN）和逆文本归一化（ITN）任务的语音数据集，包含配对的书面形式与口语形式及其对应的合成音频。数据集创建过程包括从Google文本归一化数据集中提取文本归一化对，使用NVIDIA的Magpie TTS模型合成音频，并经过人工验证。数据集涵盖12类数字相关表达，如地址、基数、日期、小数、数字序列、分数、度量、货币、序数、纯数字词、电话号码和时间表达，共计10,131个样本，总时长为4.89小时，平均每个样本时长为1.74秒。每个样本的元数据包括文件名、样本标识、音频时长、类别、原始文本、口语文本和语言代码。数据集兼容NeMo，并采用CC-BY-NC-SA-4.0许可协议。

提供机构：

NVIDIA

创建时间：

2026-02-06

原始信息汇总

Numb3rs - Numbers Speech Benchmark 数据集概述

数据集基本信息

数据集名称：Numb3rs - Numbers Speech Benchmark (Dataset)
发布者：nvidia
许可证：CC-BY-NC-SA-4.0
主要任务类别：自动语音识别
语言：英语
数据规模：10K<n<100K
样本总数：10,131
总音频时长：4.89小时
平均音频时长：1.74秒

数据集内容与结构

数据集包含12个类别的数字相关语音样本，每个样本均包含成对的书面形式与口语形式及其对应的合成音频。

数据类别与统计

类别	样本数	总时长	平均时长	描述
ADDRESS	885	18.7分钟	1.26秒	高速公路/道路标识符
CARDINAL	780	14.5分钟	1.11秒	基数词
DATE	977	30.6分钟	1.88秒	日期表达式
DECIMAL	928	24.9分钟	1.61秒	十进制数字
DIGIT	771	17.8分钟	1.39秒	数字序列
FRACTION	884	23.4分钟	1.59秒	分数值
MEASURE	914	27.7分钟	1.82秒	度量单位
MONEY	775	26.8分钟	2.07秒	货币金额
ORDINAL	957	14.3分钟	0.90秒	序数词
PLAIN	377	9.6分钟	1.52秒	纯数字单词
TELEPHONE	936	61.3分钟	3.93秒	电话号码
TIME	947	24.1分钟	1.53秒	时间表达式

数据集创建

源数据：文本归一化对源自Google Text Normalization数据集。
音频生成：使用NVIDIA的Magpie TTS（多语言文本转语音模型）合成音频，通过6种预定义声音确保说话人多样性。
人工验证：所有生成的样本均经过人工标注者手动验证，仅保留通过质量审查的实体。

使用方法

python from datasets import load_dataset dataset = load_dataset("NNstuff/Numb3rs_NV")

元数据模式

字段	类型	描述
`file_name`	字符串	音频文件的相对路径
`name`	字符串	原始样本标识符
`duration`	浮点数	音频时长（秒）
`category`	字符串	类别名称
`original_text`	字符串	书面形式（TN输入）
`text`	字符串	口语形式（ITN输入）
`lang`	字符串	语言代码

兼容性

为NeMo用户提供NeMo格式的清单文件。
manifest.jsonl：完整数据集清单。
manifests/by_category/*.jsonl：按类别划分的清单。

搜集汇总

数据集介绍

构建方式

在语音处理领域，文本归一化与逆文本归一化任务对提升语音识别系统的鲁棒性至关重要。Numb3rs数据集的构建采用了严谨的多阶段流程：首先从Google文本归一化数据集中提取书面形式与口语形式的配对数据，作为基础语料；随后利用NVIDIA的Magpie TTS模型合成音频，并引入六种预定义音色以确保说话人多样性；最后通过人工验证环节对生成样本进行质量审核，仅保留符合标准的实体，从而保证了数据的高质量与可靠性。

特点

该数据集涵盖了十二个语义类别，包括地址、基数、日期、小数、数字序列、分数、度量、货币、序数、纯数字词、电话号码及时间表达，共计一万余条样本，总时长约4.89小时。每个类别均具有明确的定义与示例，如货币类将“$100”映射为“one hundred dollars”。数据集中音频平均时长为1.74秒，结构清晰且标注完整，支持直接用于模型训练与评估，为语音处理研究提供了丰富而系统的资源。

使用方法

使用者可通过Hugging Face的datasets库便捷加载数据集，并利用其提供的元数据字段进行灵活处理。数据集中包含原始文本、口语文本、音频路径及类别标签，便于构建文本到语音或语音到文本的管道。此外，数据集还提供了与Nemo框架兼容的清单文件，支持按类别分割使用，有助于针对特定语义领域进行模型微调或基准测试。

背景与挑战

背景概述

Numb3rs数据集作为语音文本归一化与逆归一化任务的专用基准，由NVIDIA等机构的研究团队于近年构建，旨在应对自然语言处理中数字、日期、货币等非标准文本的语音转换挑战。该数据集源于谷歌文本归一化数据，通过Magpie TTS合成多说话人音频，并经过人工验证，覆盖地址、基数、时间等十二个语义类别，为语音合成与识别系统提供了高质量的配对数据，显著推动了语音技术在处理复杂实体表达方面的进展。

当前挑战

在领域层面，该数据集致力于解决文本归一化与逆归一化中实体表达的歧义性与多样性问题，例如同一数字在不同语境下可能对应多种口语形式，增加了模型泛化难度。构建过程中，挑战主要集中于合成音频的自然度与一致性保障，需通过多说话人配置与人工审核来平衡数据规模与质量，同时确保跨类别样本的均衡分布，以支持鲁棒的模型训练。

常用场景

经典使用场景

在语音技术领域，Numb3rs数据集为文本归一化与逆文本归一化任务提供了关键资源。其经典应用场景在于训练和评估自动语音识别系统，特别是处理数字、日期、货币等非标准文本的语音转换。通过涵盖地址、基数、日期、小数、数字序列、分数、度量、货币、序数、普通数字词、电话号码和时间等12个类别，该数据集能够全面模拟现实世界中复杂数字表达的语音识别需求，助力模型学习从书面形式到口语形式的精确映射。

实际应用

在实际应用中，Numb3rs数据集广泛应用于智能助手、金融交易系统、导航服务和客户支持自动化等场景。例如，在虚拟助理中，它帮助系统准确理解用户提及的日期或金额；在银行应用中，确保语音交互时货币转换的可靠性；在导航设备中，提升地址和电话号码的识别精度。这些应用不仅增强了人机交互的流畅性，还降低了人工处理成本，为商业和日常服务提供了高效、可靠的语音解决方案。

衍生相关工作

基于Numb3rs数据集，衍生出多项经典研究工作，主要集中在端到端语音识别模型的优化和跨语言文本归一化扩展。例如，研究者利用该数据集训练神经网络模型，以改进数字实体的识别准确率；同时，结合NVIDIA的Magpie TTS技术，推动了多语言语音合成在数字表达上的应用。这些工作不仅拓展了数据集的学术价值，还为语音技术社区提供了可复现的基准，促进了文本归一化领域的方法创新和标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集