five

StyleTalk Dataset - 理解和响应不同说话风格的语音对话数据集|语音对话数据集|说话风格数据集

收藏
github2024-05-20 更新2024-05-31 收录
语音对话
说话风格
下载链接:
https://github.com/DanielLin94144/StyleTalk
下载链接
链接失效反馈
资源简介:
StyleTalk数据集由台湾大学构建,它是为了帮助大模型更好地理解和回应不同说话风格而创建。该数据集的训练集包含1,878组对话和1,986个样本,评估集包含486组对话和981个样本,其是首个具有相同对话背景和输入句子但不同说话风格的口语对话基准数据集,并且每种风格都配有相应的表达性口语回应。数据集的创建过程分为三个阶段:首先利用大模型生成带有风格标注的文本对话;其次,通过表达性文本到语音模型合成具有特定风格和韵律控制的语音;最后,通过人工审核确保数据的自然性和质量。StyleTalk数据集旨在促进开发理解并响应不同言语风格的对话系统以及提高大模型对语音模态的理解和响应能力,以增强用户体验。

The StyleTalk dataset, constructed by National Taiwan University, was created to assist large models in better understanding and responding to various speaking styles. The training set of this dataset comprises 1,878 dialogue groups and 1,986 samples, while the evaluation set includes 486 dialogue groups and 981 samples. It is the first spoken dialogue benchmark dataset featuring identical dialogue contexts and input sentences but differing speaking styles, with each style accompanied by corresponding expressive spoken responses. The dataset creation process is divided into three stages: initially, large models are utilized to generate text dialogues annotated with style labels; subsequently, expressive text-to-speech models synthesize speech with specific styles and prosodic controls; finally, human review ensures the naturalness and quality of the data. The StyleTalk dataset aims to facilitate the development of dialogue systems that understand and respond to diverse speech styles and to enhance large models' comprehension and responsiveness to the speech modality, thereby improving user experience.
创建时间:
2024-05-18
原始信息汇总

StyleTalk Dataset 概述

数据集描述

  • 主题:语音对话中的说话风格转换
  • 特点
    • 包含多种情感、语速和音量的语音对话
    • 通过人工标注进行过滤
  • 目标:训练大型语言模型(LLMs)理解和响应不同说话风格

数据集内容

  • 注释文件train.csveval.csv
  • 音频文件:可通过Google Drive链接获取

研究成果

  • 论文:详细信息可参考 arXiv预印本,该论文已被ACL 2024主会议接受
  • 框架:提出了Spoken-LLM框架,用于模型训练,具体细节待公布

引用信息

  • 如需引用,请使用以下格式:

    @article{lin2024advancing, title={Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations}, author={Lin, Guan-Ting and Chiang, Cheng-Han and Lee, Hung-yi}, journal={arXiv preprint arXiv:2402.12786}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
StyleTalk数据集的构建旨在捕捉和响应不同说话风格的语音对话。该数据集通过收集具有相同内容但不同说话风格的语音样本,确保在相同语句下,不同风格的响应有所区别。数据集的构建过程包括人工注释过滤,以确保样本的质量和多样性。此外,数据集还采用了两阶段训练管道,以帮助模型更好地学习说话风格。
特点
StyleTalk数据集的显著特点在于其对说话风格的细致捕捉和响应。数据集包含了多种情感、语速和音量的变化,使得模型能够理解和适应不同的说话风格。此外,数据集的设计旨在使模型能够区分相同内容但不同风格的语音,从而生成相应的不同响应,这在语音对话系统中具有重要意义。
使用方法
StyleTalk数据集的使用方法主要包括加载标注文件和音频文件。标注文件包括训练集和评估集,分别存储在train.csv和eval.csv中。音频文件则可通过提供的Google Drive链接下载。使用者可以通过加载这些文件,训练和评估模型对不同说话风格的理解和响应能力。
背景与挑战
背景概述
在语音对话领域,尽管当前对话的句子相同,但由于说话风格的不同,其响应可能会有显著差异。说话风格包含副语言和韵律信息,是文本与语音模式之间最显著的区别。现有的仅基于文本的大型语言模型(LLMs)无法根据当前对话的说话风格提供不同的响应。为了解决这一问题,研究人员于2024年提出了StyleTalk数据集,该数据集由Guan-Ting Lin、Cheng-Han Chiang和Hung-yi Lee等人创建,旨在训练LLMs理解和响应不同的说话风格。StyleTalk数据集的构建旨在实现一个目标:即使两个对话内容相同,但说话风格不同,其响应也应有所区别。这一数据集的推出,标志着语音对话系统在理解和适应多样化说话风格方面迈出了重要一步,对提升语音对话系统的自然性和适应性具有重要意义。
当前挑战
StyleTalk数据集在构建过程中面临多项挑战。首先,如何准确捕捉和区分不同的说话风格,包括情感、语速和音量等,是一个复杂的问题。其次,数据集的标注过程需要人工干预,确保每个对话样本的风格特征被准确记录,这增加了数据集构建的难度和成本。此外,训练大型语言模型以理解和响应这些风格特征,需要设计复杂的模型架构和训练策略,以确保模型能够有效学习并应用这些风格信息。最后,如何在实际应用中验证和优化模型的性能,确保其在不同说话风格下的响应准确性和自然性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
在语音对话系统中,StyleTalk Dataset 被广泛用于训练和评估能够理解和响应不同说话风格的模型。该数据集通过捕捉多样化的情感、语速和音量,使得模型能够根据说话者的风格生成相应的回应。这种能力在提升对话系统的自然性和个性化方面具有显著优势,尤其是在需要模拟人类对话复杂性的应用场景中。
实际应用
StyleTalk Dataset 在实际应用中具有广泛的前景,特别是在智能客服、语音助手和个性化教育等领域。通过使用该数据集训练的模型,系统能够更好地理解和响应用户的说话风格,从而提供更加自然和个性化的交互体验。此外,该数据集还可用于开发能够适应不同用户群体和场景的语音对话系统,提升系统的适应性和用户满意度。
衍生相关工作
基于 StyleTalk Dataset,研究者们开发了多种语音语言模型(Spoken-LLM),这些模型在理解和响应说话风格方面表现出色。例如,Spoken-LLM 框架通过两阶段训练流程,显著提升了模型对说话风格的捕捉能力。此外,该数据集还激发了在情感识别、语音合成和对话生成等领域的相关研究,推动了语音对话系统的整体发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录