TMNews

Name: TMNews
Creator: 中央研究院
Published: 2022-12-11 10:05:30
License: 暂无描述

arXiv2022-12-11 更新2024-06-21 收录

下载链接：

https://github.com/yuwchen/BASPRO/tree/main/TMNews

下载链接

链接失效反馈

官方服务：

资源简介：

TMNews数据集是由中央研究院的研究人员开发的，旨在为普通话中文语音数据的收集提供一个音节平衡和丰富的句子集合。该数据集包含400个十字句，覆盖了现实世界中84%的音节，并且其音节分布与现实世界的音节分布具有0.96的余弦相似度。数据集的创建过程涉及从大型中文新闻文本语料库中提取候选句子，并应用遗传算法选择音节平衡的句子集合。TMNews数据集主要用于语音增强和自动语音识别等语音处理任务的训练和评估，以提高这些模型在现实环境中的性能。

The TMNews dataset was developed by researchers at the Academia Sinica, aiming to provide a syllable-balanced and comprehensive sentence set for Mandarin Chinese speech data collection. This dataset contains 400 ten-word sentences, covering 84% of syllables encountered in real-world speech scenarios, and its syllable distribution exhibits a cosine similarity of 0.96 with that of real-world syllable distributions. The development of the dataset entails extracting candidate sentences from a large-scale Chinese news text corpus, and applying a genetic algorithm to select a syllable-balanced sentence set. The TMNews dataset is primarily utilized for the training and evaluation of speech processing tasks such as speech enhancement and automatic speech recognition, with the goal of improving the performance of these models in real-world environments.

提供机构：

中央研究院

创建时间：

2022-12-11

搜集汇总

数据集介绍

构建方式

在语音处理领域，构建具有代表性的语音语料库对模型性能至关重要。TMNews数据集的构建依托于BASPRO系统，该系统从大规模中文新闻文本中提取候选句子，并采用遗传算法优化选择，形成音节平衡的录音脚本。具体而言，首先通过预训练的自然语言处理工具过滤出长度为十个字符的句子，并应用词性标注、困惑度和可懂度等多重筛选机制，确保句子质量。随后，遗传算法以音节分布与真实世界分布的余弦相似度及音节覆盖率为优化目标，从候选句子中迭代选择出20组各含20句的平衡集合，最终生成包含400个句子的TMNews脚本。

特点

TMNews数据集的核心特点在于其音节的平衡性与丰富性。该数据集覆盖了真实世界中84%的音节，且音节分布与真实分布的余弦相似度高达0.96，确保了语音单元的代表性。此外，数据集由20个独立子集构成，每个子集均满足音节平衡要求，使得数据集既可整体用于模型训练，也能分割为小型验证集或个性化学习任务。这种设计不仅提升了数据集的实用性，还增强了其在语音增强和自动语音识别等任务中的泛化能力。

使用方法

TMNews数据集主要服务于语音处理模型的训练与评估。用户可通过文本转语音系统将脚本转换为语音语料库，用于语音增强和自动语音识别等任务的实验。在实际应用中，数据集可整体用于大规模模型训练，也可将其子集作为验证集以优化模型选择。研究显示，基于TMNews训练的模型在音节覆盖和分布上优于随机组成的语料库，尤其在数据量有限时，其平衡特性显著提升模型性能。此外，数据集支持跨任务评估，为语音处理研究提供了可靠的基准资源。

背景与挑战

背景概述

TMNews数据集是由台湾中央研究院资讯科技创新研究中心的研究人员于近年开发的，旨在为普通话语音处理模型提供音素平衡且丰富的训练与评估语料。该数据集基于BASPRO系统构建，该系统利用遗传算法从大量中文新闻文本中自动筛选出音节分布与真实世界高度相似的句子集合。TMNews包含400个十字符句子，覆盖了约84%的真实世界音节，其音节分布与真实分布的余弦相似度达到0.96。该数据集的创建解决了传统语音语料库构建中依赖人工设计、耗时且缺乏代表性的问题，为语音增强和自动语音识别等任务提供了高效且可靠的资源支持。

当前挑战

TMNews数据集致力于解决语音处理领域中的音素平衡语料库构建挑战，其核心在于如何从海量文本中自动选择具有代表性和多样性的句子，以覆盖广泛的音节并逼近真实世界的音节分布。构建过程中的主要挑战包括：处理NP-hard的句子选择优化问题，需设计高效的遗传算法以在可接受时间内找到近似最优解；确保句子的可理解性与逻辑性，需结合自然语言处理工具进行多级过滤，但自动方法仍无法完全消除语义不合理句子，依赖后续人工筛查；平衡音节覆盖度与分布相似性之间的权衡，需设计合理的适应度函数以兼顾多样性与代表性。

常用场景

经典使用场景

在语音处理领域，构建具有代表性的语音语料库是提升模型性能的关键。TMNews数据集通过BASPRO系统自动生成音素平衡且丰富的录音脚本，其最经典的使用场景在于为普通话语音增强和自动语音识别模型的训练与评估提供标准化测试基准。该数据集包含400个十字符句子，覆盖了现实世界中84%的音节，且音节分布与真实分布的余弦相似度高达0.96，确保了语料在语音学上的代表性和平衡性。

解决学术问题

TMNews数据集主要解决了语音处理研究中训练数据代表性和效率的学术难题。传统上，构建音素平衡语料库依赖专家手动设计，耗时且难以保证覆盖范围。该数据集通过遗传算法自动筛选句子，实现了音节分布与真实语言环境的高度匹配，为模型训练提供了更有效的样本。其意义在于降低了语料构建成本，提升了语音处理模型在有限数据下的泛化能力，尤其对资源受限的研究机构具有重要价值。

衍生相关工作

TMNews数据集的构建方法衍生了一系列相关研究，推动了语音语料库设计领域的发展。基于其遗传算法框架，后续工作扩展了多语言音素平衡语料库的自动生成技术。在语音处理任务中，该数据集被广泛用作基准，促进了语音增强模型如MetricGAN+的优化验证。同时，其设计理念影响了语音识别领域的小样本学习策略，为低资源语言语音技术提供了可借鉴的语料构建范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集