mary-test

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/JobixAi/mary-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文本、音频、来源、修订文本和语言等信息，主要用于训练模型。数据集包含一个训练集，共有135个示例。

创建时间：

2025-11-28

原始信息汇总

数据集概述

基本信息

数据集名称: mary-test
存储位置: https://huggingface.co/datasets/JobixAi/mary-test
下载大小: 41,910,120字节
数据集大小: 43,871,846字节

数据结构

特征字段

text: 文本数据（字符串类型）
audio: 音频数据（音频类型）
source: 来源信息（字符串类型）
text_revised: 修订文本（字符串类型）
language: 语言信息（字符串类型）

数据划分

训练集: 包含135个样本，占用43,871,846字节

配置信息

默认配置: 数据文件路径为data/train-*

搜集汇总

数据集介绍

构建方式

在语音与文本跨模态研究领域，mary-test数据集通过系统化的数据采集流程构建而成。该数据集整合了多元来源的音频与文本素材，每一数据样本均包含原始文本、修订文本、对应音频片段及语言标签，确保了数据的完整性与可追溯性。构建过程中采用标准化格式对音频波形与文本序列进行对齐处理，并通过质量校验机制剔除异常样本，最终形成包含135个训练实例的结构化集合。

特点

该数据集的核心价值体现在其多维度的特征设计上。文本维度同时保留原始表述与人工修订版本，为语言规范化研究提供对比基础；音频数据以高保真格式存储，支持声学特征深度提取。特别值得注意的是，每个样本均标注了明确的语种来源与数据出处，这种元信息的完备性为跨语言语音识别任务提供了关键支撑。所有特征字段采用统一编码规范，保障了跨平台使用的兼容性。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行模型训练与验证。使用时应首先指定默认配置，系统将自动解析存储于train分割中的压缩文件。典型应用场景包括端到端语音识别模型开发、多语言语音合成系统训练以及文本-音频对齐算法研究。数据加载后可通过特征名直接调用文本、音频等字段，其标准化接口支持与主流深度学习框架无缝衔接。

背景与挑战

背景概述

在语音与文本跨模态研究领域，数据资源的构建对推动人机交互技术进步具有关键意义。mary-test数据集作为集成音频与文本对标的语料库，其设计初衷在于解决多语言环境下语音识别与自然语言处理的协同建模问题。该数据集由研究团队通过系统化采集构建，收录了涵盖多种语言类型的135个样本，每个样本均包含原始音频、对应文本及经过语言学修正的文本版本，为探索声学特征与语义表达的映射关系提供了实验基础。

当前挑战

该数据集致力于应对多模态学习中音频-文本对齐的复杂性挑战，尤其需克服不同语言音系结构与文本表征的非线性对应问题。在构建过程中，团队面临音频质量一致性控制的困难，包括环境噪声干扰与采样率标准化等技术瓶颈；同时，文本修订需平衡语言学规范与口语化表达的特性，而小规模样本分布亦对模型泛化能力提出了更高要求。

常用场景

经典使用场景

在语音与文本处理领域，该数据集凭借其包含的音频与文本平行数据，常被用于构建端到端的语音识别模型。研究人员通过提取音频特征并与对应文本标注进行对齐，能够有效训练深度学习网络，实现从声音信号到文字符号的自动转换过程。此类应用不仅验证了模型在有限数据下的泛化能力，还为多模态学习提供了基础实验平台。

解决学术问题

该数据集主要解决了低资源语言环境下语音技术开发的瓶颈问题。通过提供经过修订的文本与原始音频的对应关系，它帮助学术界克服了训练数据稀缺的挑战，显著提升了自动语音识别系统在非主流语言中的准确率。这一突破对保护语言多样性及推动边缘化语言的数字化进程具有深远意义，为跨语言语音研究奠定了数据基石。

衍生相关工作

基于该数据集衍生的经典研究包括多模态预训练框架的构建与跨语言迁移学习模型的探索。众多团队利用其音频-文本对特性，开发出兼具语音理解与生成能力的统一架构，这些成果随后被扩展至大规模多语言数据集中。后续工作进一步推动了自监督语音表征学习的发展，为构建更鲁棒的语音处理生态系统提供了关键方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集