VStyle

Name: VStyle
Creator: 复旦大学, 阿里巴巴集团
Published: 2025-09-09 22:28:58
License: 暂无描述

arXiv2025-09-09 更新2025-11-24 收录

下载链接：

https://hf-mirror.com/datasets/zhanjun/VStyle

下载链接

链接失效反馈

官方服务：

资源简介：

VStyle是一个用于评估语音风格适应性的双语文本数据集，包含四个类别的语音生成：声学属性、自然语言指令、角色扮演和隐含同理心。该数据集由1523个指令组成，旨在评估语音模型根据语音指令调整其说话风格的能力。数据集构建采用混合人工-LLM方法，并通过大型音频语言模型（LALM-as-a-Judge）框架进行评估，以实现可扩展和客观的自动评估。

VStyle is a bilingual text dataset developed for evaluating speech style adaptability, encompassing four categories of speech generation: acoustic attributes, natural language instructions, role-playing scenarios, and implied empathy. Comprising 1,523 instructions in total, this dataset is designed to assess the ability of speech models to modulate their speaking styles in accordance with the given instructions. The dataset is constructed via a hybrid human-LLM approach, and evaluated using the Large Audio Language Model (LALM-as-a-Judge) framework to enable scalable and objective automatic evaluation.

提供机构：

复旦大学, 阿里巴巴集团

创建时间：

2025-09-09

搜集汇总

数据集介绍

构建方式

在语音交互技术蓬勃发展的背景下，VStyle数据集采用人机协同的构建策略。研究团队首先人工设计种子指令，随后利用大语言模型进行扩展和迭代优化。为降低口语指令的歧义性，采用固定句式模板规范表达结构，例如内容指定类指令使用“请说出这句话”的标准化表述。文本语料构建完成后，通过商用语音克隆系统合成对应的音频指令：前三个非情感类别的音频选自Seed-TTS模型的高质量样本，而共情类数据则借助Gemini-TTS的情感控制能力生成符合目标状态的语音。经过严格筛选后，最终形成包含1,523条中英双语语音指令的标准化数据集。

特点

作为语音风格适应领域的专项评测基准，VStyle展现出鲜明的多维特征。其双语架构覆盖中文与英文语境，通过声学属性、自然语言指令、角色扮演和隐性共情四大类别构建完整评估体系。声学属性类别聚焦年龄、性别、语速等可量化参数的控制能力；自然语言指令类别考察模型对开放式风格描述的解析能力；角色扮演模块模拟真实场景中的人物设定；隐性共情则要求模型根据情感语境自主推断合适的表达方式。这种分层设计既包含显式控制任务，也涵盖隐式推理场景，为全面评估语音模型的风格适应能力提供了结构化框架。

使用方法

在具体应用层面，VStyle通过标准化的评估流程确保评测效度。研究者将待测模型的生成结果输入大型音频语言模型评判框架进行分层评估：首先检验文本忠实度，未通过者直接判定为最低分；合格样本继续接受风格一致性评估，根据符合程度划分中等分数；完全符合风格要求的样本进入自然度终评，最终形成1-5分的综合评分。这种渐进式评估机制模拟人类认知逻辑，优先保障内容准确性，再逐层考察风格匹配与表达自然性。通过均衡加权各维度得分，最终生成可复现的量化评估结果，为语音风格适应技术的迭代优化提供可靠依据。

背景与挑战

背景概述

随着口语语言模型（SLMs）在语音理解与生成领域的快速发展，其已成为实现自然人机交互的统一范式。然而，现有研究多聚焦于语义准确性与指令遵循能力，对于模型根据语音指令调整说话风格（如音色、韵律或角色扮演）的探索仍显不足。为此，复旦大学与阿里巴巴集团的研究团队于2025年联合发布了VStyle数据集，旨在系统评估语音风格适应（VSA）任务。该数据集涵盖声学属性、自然语言指令、角色扮演与隐性共情四大类别，包含1523条双语语音指令，为推进表达性语音生成研究提供了重要基础。

当前挑战

语音风格适应任务面临双重挑战：在领域问题层面，现有模型难以在保持语义准确性的同时，实现对音色、情感等多维度风格特征的精细控制，尤其在跨语言场景下表现显著差异；在构建过程中，需克服语音指令的歧义性问题，并通过混合人工与大语言模型协作的方式确保数据质量与多样性。此外，传统评估指标无法全面捕捉风格适应性，促使研究团队开发基于大音频语言模型的自动化评估框架，以解决人工评估成本高、一致性差的瓶颈。

常用场景

解决学术问题

VStyle有效解决了语音技术领域长期存在的表达性评估缺失问题。传统语音合成指标如词错误率和说话人相似度，难以全面捕捉对话系统中丰富的非语言特征。该数据集通过构建层次化评估框架，填补了语音风格可控性研究的空白，使研究者能够量化分析模型在情感传递、角色代入和声学属性调节等方面的表现，推动了语音交互从语义正确到表达自然的范式转变。

衍生相关工作

基于VStyle的评估范式，研究社区衍生出多项创新工作。LALM-as-a-Judge框架被扩展应用于更广泛的音频质量评估任务，推动了自动化评估标准的发展。多家机构借鉴其双语设计思路，构建了针对特定语言的风格适配数据集。此外，该数据集揭示的商业与开源模型性能差距，直接促进了开源社区在语音表达性建模方面的技术改进，催生了多模态融合的新一代语音生成架构。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集