Numb3rs
收藏Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/nvidia/Numb3rs
下载链接
链接失效反馈官方服务:
资源简介:
Numb3rs_NV 是一个用于文本归一化(TN)和逆文本归一化(ITN)任务的语音数据集,包含配对的书面形式与口语形式及其对应的合成音频。数据集创建过程包括从Google文本归一化数据集中提取文本归一化对,使用NVIDIA的Magpie TTS模型合成音频,并经过人工验证。数据集涵盖12类数字相关表达,如地址、基数、日期、小数、数字序列、分数、度量、货币、序数、纯数字词、电话号码和时间表达,共计10,131个样本,总时长为4.89小时,平均每个样本时长为1.74秒。每个样本的元数据包括文件名、样本标识、音频时长、类别、原始文本、口语文本和语言代码。数据集兼容NeMo,并采用CC-BY-NC-SA-4.0许可协议。
提供机构:
NVIDIA
创建时间:
2026-02-06
原始信息汇总
Numb3rs - Numbers Speech Benchmark 数据集概述
数据集基本信息
- 数据集名称:Numb3rs - Numbers Speech Benchmark (Dataset)
- 发布者:nvidia
- 许可证:CC-BY-NC-SA-4.0
- 主要任务类别:自动语音识别
- 语言:英语
- 数据规模:10K<n<100K
- 样本总数:10,131
- 总音频时长:4.89小时
- 平均音频时长:1.74秒
数据集内容与结构
数据集包含12个类别的数字相关语音样本,每个样本均包含成对的书面形式与口语形式及其对应的合成音频。
数据类别与统计
| 类别 | 样本数 | 总时长 | 平均时长 | 描述 |
|---|---|---|---|---|
| ADDRESS | 885 | 18.7分钟 | 1.26秒 | 高速公路/道路标识符 |
| CARDINAL | 780 | 14.5分钟 | 1.11秒 | 基数词 |
| DATE | 977 | 30.6分钟 | 1.88秒 | 日期表达式 |
| DECIMAL | 928 | 24.9分钟 | 1.61秒 | 十进制数字 |
| DIGIT | 771 | 17.8分钟 | 1.39秒 | 数字序列 |
| FRACTION | 884 | 23.4分钟 | 1.59秒 | 分数值 |
| MEASURE | 914 | 27.7分钟 | 1.82秒 | 度量单位 |
| MONEY | 775 | 26.8分钟 | 2.07秒 | 货币金额 |
| ORDINAL | 957 | 14.3分钟 | 0.90秒 | 序数词 |
| PLAIN | 377 | 9.6分钟 | 1.52秒 | 纯数字单词 |
| TELEPHONE | 936 | 61.3分钟 | 3.93秒 | 电话号码 |
| TIME | 947 | 24.1分钟 | 1.53秒 | 时间表达式 |
数据集创建
- 源数据:文本归一化对源自Google Text Normalization数据集。
- 音频生成:使用NVIDIA的Magpie TTS(多语言文本转语音模型)合成音频,通过6种预定义声音确保说话人多样性。
- 人工验证:所有生成的样本均经过人工标注者手动验证,仅保留通过质量审查的实体。
使用方法
python from datasets import load_dataset dataset = load_dataset("NNstuff/Numb3rs_NV")
元数据模式
| 字段 | 类型 | 描述 |
|---|---|---|
file_name |
字符串 | 音频文件的相对路径 |
name |
字符串 | 原始样本标识符 |
duration |
浮点数 | 音频时长(秒) |
category |
字符串 | 类别名称 |
original_text |
字符串 | 书面形式(TN输入) |
text |
字符串 | 口语形式(ITN输入) |
lang |
字符串 | 语言代码 |
兼容性
- 为NeMo用户提供NeMo格式的清单文件。
manifest.jsonl:完整数据集清单。manifests/by_category/*.jsonl:按类别划分的清单。
搜集汇总
数据集介绍

构建方式
在语音处理领域,文本归一化与逆文本归一化任务对提升语音识别系统的鲁棒性至关重要。Numb3rs数据集的构建采用了严谨的多阶段流程:首先从Google文本归一化数据集中提取书面形式与口语形式的配对数据,作为基础语料;随后利用NVIDIA的Magpie TTS模型合成音频,并引入六种预定义音色以确保说话人多样性;最后通过人工验证环节对生成样本进行质量审核,仅保留符合标准的实体,从而保证了数据的高质量与可靠性。
特点
该数据集涵盖了十二个语义类别,包括地址、基数、日期、小数、数字序列、分数、度量、货币、序数、纯数字词、电话号码及时间表达,共计一万余条样本,总时长约4.89小时。每个类别均具有明确的定义与示例,如货币类将“$100”映射为“one hundred dollars”。数据集中音频平均时长为1.74秒,结构清晰且标注完整,支持直接用于模型训练与评估,为语音处理研究提供了丰富而系统的资源。
使用方法
使用者可通过Hugging Face的datasets库便捷加载数据集,并利用其提供的元数据字段进行灵活处理。数据集中包含原始文本、口语文本、音频路径及类别标签,便于构建文本到语音或语音到文本的管道。此外,数据集还提供了与Nemo框架兼容的清单文件,支持按类别分割使用,有助于针对特定语义领域进行模型微调或基准测试。
背景与挑战
背景概述
Numb3rs数据集作为语音文本归一化与逆归一化任务的专用基准,由NVIDIA等机构的研究团队于近年构建,旨在应对自然语言处理中数字、日期、货币等非标准文本的语音转换挑战。该数据集源于谷歌文本归一化数据,通过Magpie TTS合成多说话人音频,并经过人工验证,覆盖地址、基数、时间等十二个语义类别,为语音合成与识别系统提供了高质量的配对数据,显著推动了语音技术在处理复杂实体表达方面的进展。
当前挑战
在领域层面,该数据集致力于解决文本归一化与逆归一化中实体表达的歧义性与多样性问题,例如同一数字在不同语境下可能对应多种口语形式,增加了模型泛化难度。构建过程中,挑战主要集中于合成音频的自然度与一致性保障,需通过多说话人配置与人工审核来平衡数据规模与质量,同时确保跨类别样本的均衡分布,以支持鲁棒的模型训练。
常用场景
经典使用场景
在语音技术领域,Numb3rs数据集为文本归一化与逆文本归一化任务提供了关键资源。其经典应用场景在于训练和评估自动语音识别系统,特别是处理数字、日期、货币等非标准文本的语音转换。通过涵盖地址、基数、日期、小数、数字序列、分数、度量、货币、序数、普通数字词、电话号码和时间等12个类别,该数据集能够全面模拟现实世界中复杂数字表达的语音识别需求,助力模型学习从书面形式到口语形式的精确映射。
实际应用
在实际应用中,Numb3rs数据集广泛应用于智能助手、金融交易系统、导航服务和客户支持自动化等场景。例如,在虚拟助理中,它帮助系统准确理解用户提及的日期或金额;在银行应用中,确保语音交互时货币转换的可靠性;在导航设备中,提升地址和电话号码的识别精度。这些应用不仅增强了人机交互的流畅性,还降低了人工处理成本,为商业和日常服务提供了高效、可靠的语音解决方案。
衍生相关工作
基于Numb3rs数据集,衍生出多项经典研究工作,主要集中在端到端语音识别模型的优化和跨语言文本归一化扩展。例如,研究者利用该数据集训练神经网络模型,以改进数字实体的识别准确率;同时,结合NVIDIA的Magpie TTS技术,推动了多语言语音合成在数字表达上的应用。这些工作不仅拓展了数据集的学术价值,还为语音技术社区提供了可复现的基准,促进了文本归一化领域的方法创新和标准化进程。
以上内容由遇见数据集搜集并总结生成



