TinyStress-15K

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/slprl/TinyStress-15K

下载链接

链接失效反馈

官方服务：

资源简介：

TinyStress-15K是一个合成的语音数据集，包含句子重音注释，旨在支持理解和分析句子中特定单词重音如何影响句子含义的研究。数据集由15,000个训练样本和1,000个测试样本组成，采样率为48 kHz，提供文本转录、音频波形、重音单词索引等信息。

创建时间：

2025-05-25

原始信息汇总

📚 TinyStress-15K 数据集概述

📦 数据集基本信息

名称: TinyStress-15K
类型: 带有重音标注的合成语音数据集
样本量: 15,000个训练样本和1,000个测试样本
采样率: 48 kHz
文本来源: 源自TinyStories

🧩 数据集结构

特征描述

特征	描述
`id`	唯一样本标识符
`original_sample_index`	原始TinyStories样本（故事）的索引
`sentence_index`	句子在原始故事中的位置
`transcription`	音频的文本转录
`audio`	音频波形（`.wav`），采样率为48kHz
`ssml`	用于操纵韵律特征的SSML格式版本
`emphasis_indices`	转录中包含重音的单词索引列表
`metadata.gender`	说话者性别（整数编码）
`metadata.language_code`	语言标签（如`"en"`）
`metadata.voice_name`	合成语音名称
`word_start_timestamps`	每个单词的开始时间（秒）
`aligned_whisper_transcriptions`	Whisper生成的转录

数据分割

训练集: 5,215,476,174字节，15,000个样本
测试集: 337,636,506字节，1,000个样本

📥 使用方法

python from datasets import load_dataset

dataset = load_dataset("slprl/TinyStress-15K", split="train") sample = dataset[0] words = sample["transcription"].split() stressed_words = [words[i] for i in sample["emphasis_indices"]]

print(sample["transcription"]) print(sample["emphasis_indices"]) print(stressed_words)

🧠 引用

如果使用本数据集，请引用以下工作： bibtex @misc{yosha2025whistress, title={WHISTRESS: Enriching Transcriptions with Sentence Stress Detection}, author={Iddo Yosha and Dorin Shteyman and Yossi Adi}, year={2025}, eprint={2505.19103}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.19103}, }

📝 注意事项

本数据集仅供研究使用。

搜集汇总

数据集介绍

构建方式

在语音合成研究领域，TinyStress-15K数据集通过系统化流程构建而成。该数据集以TinyStories文本库为原始素材，采用合成语音技术生成音频样本，采样率设定为48kHz以确保高保真度。每个样本均通过SSML标记语言进行韵律特征调控，并人工标注句子重音位置，形成包含15,000个训练样本和1,000个测试样本的标准化集合。数据构建过程注重语音与文本的对齐精度，特别集成了Whisper语音识别系统生成辅助转录文本，为句子重音检测研究提供可靠基础。

特点

作为面向句子重音分析的专用数据集，TinyStress-15K展现出多模态融合的典型特征。数据集不仅包含高采样率的音频波形数据，还整合了文本转录、重音索引标记和时间对齐信息。其独特的emphasis_indices字段明确标注句子中承载语义重音的关键词位置，而word_start_timestamps则提供精确到词语级别的时序标注。元数据层包含说话人性别、语言代码等属性，支持多维度分析。所有数据均采用结构化存储，便于机器学习模型进行端到端训练。

使用方法

研究人员可通过HuggingFace数据集库直接加载TinyStress-15K进行模型开发。使用load_dataset函数指定数据集名称即可获取训练集或测试集，每个样本包含完整的音频数据和标注信息。典型应用流程包括解析transcription文本字段，结合emphasis_indices提取重音词汇，进而训练句子重音检测模型。音频数据可直接输入声学模型，而时间戳标注支持构建韵律特征分析管道。数据集兼容主流深度学习框架，为语音理解任务提供标准化实验基准。

背景与挑战

背景概述

TinyStress-15K数据集于2025年由Iddo Yosha、Dorin Shteyman和Yossi Adi等研究人员开发，作为WhiStress研究项目的重要组成部分。该数据集聚焦于语音处理领域中的句子重音检测问题，旨在通过合成语音数据推动对强调性语音模式的理解。其文本内容源自TinyStories语料库，包含15,000条训练样本和1,000条测试样本，以48kHz高采样率呈现音频数据。该资源的建立为韵律分析和语音理解模型提供了关键数据支撑，显著促进了自然语言处理与计算语音学的交叉研究。

当前挑战

句子重音检测面临的核心挑战在于准确捕捉语音信号中细微的韵律变化，这些变化往往受到语境、语速和说话人特性的多重影响。构建过程中需克服合成语音与自然语音的声学差异，确保重音标注与真实语音特征的一致性。同时，文本与音频的对齐精度、跨说话人的重音泛化能力，以及SSML标记到实际语音表现的映射关系，均为数据集构建的关键技术难点。

常用场景

经典使用场景

在语音处理与计算语言学领域，TinyStress-15K数据集为句子重音检测任务提供了标准化的实验平台。该数据集通过合成语音与精确的重音标注，支持模型学习如何识别句子中被强调的词汇，从而理解语音中的语义焦点。研究人员通常利用其15,000条训练样本和1,000条测试样本，结合音频波形与文本转录，构建端到端的重音识别系统，推动语音理解模型在韵律分析方面的发展。

实际应用

在实际应用中，TinyStress-15K为智能语音助手、教育技术工具和辅助通信系统提供了关键技术支持。例如，在语言学习平台中，该数据集训练的模型可帮助学习者掌握英语句子重音规律，改善发音准确性；在语音交互系统中，重音检测能增强对话机器人对用户意图的捕捉，提升响应的人性化水平。这些应用体现了语音技术在真实场景中的实用价值。

衍生相关工作

基于TinyStress-15K数据集，多项经典研究工作得以展开，尤其在WhiStress框架中推动了句子重音检测与语音转录的融合。衍生研究包括端到端重音预测模型的构建、多模态语音分析方法的探索，以及轻量级语音理解系统的开发。这些工作不仅扩展了数据集的学术影响力，还为语音合成、情感计算等相邻领域提供了可借鉴的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集