SD-Eval

Name: SD-Eval
Creator: 香港中文大学（深圳）
Published: 2024-06-19 16:46:29
License: 暂无描述

arXiv2024-06-19 更新2024-06-24 收录

下载链接：

https://github.com/amphionspace/SD-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

SD-Eval是一个专注于多维度评估口语对话理解的数据集，由香港中文大学（深圳）和字节跳动共同创建。该数据集包含7,303条语音数据，总计8.76小时，涵盖情感、口音、年龄和背景声音四个维度。数据集通过整合八个公开数据集构建，旨在推动更富同情心和智能的口语对话系统的发展，解决语音输入生成适当响应的问题。

SD-Eval is a dataset focused on multi-dimensional evaluation of spoken dialogue understanding, co-created by The Chinese University of Hong Kong, Shenzhen and ByteDance. This dataset includes 7,303 speech samples with a total duration of 8.76 hours, covering four dimensions: sentiment, accent, age, and background sound. Constructed by integrating eight public datasets, it aims to advance the development of more empathetic and intelligent spoken dialogue systems and tackle the challenge of generating appropriate responses to speech inputs.

提供机构：

香港中文大学（深圳）

创建时间：

2024-06-19

原始信息汇总

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

SD-Eval 是一个用于多维度评估口语对话理解和生成的基准数据集。该数据集专注于副语言和环境信息，包含 7,303 个话语，总计 8.76 小时的语音数据。数据集从八个公共数据集中汇总，代表了四个视角：情感、口音、年龄和背景声音。

数据集下载

下载链接

以下是各个测试集对应的下载链接：

Test Set	Dataset	Link
test-emo	RAVDESS <br> JL Corpus <br> MEAD	Link <br> Link<br>Link
test-acc	VCTK <br> Common Voice v16.1	Link <br> Link
test-age	MyST	Link

音频文件组织结构

音频文件应按照以下结构组织在名为 audio_data 的文件夹中：

audio_data

├── RAVDESS-Speech

│ ├── Actor_0X

│ ├── XXX.wav

│ ├── ...

├── JL_Corpus

│ ├── XXX.wav

│ ├── ...

├── MEAD

│ ├── MEAD_wav

│ ├── WXXX

│ ├── audio

│ ├── XXX

│ ├── level_X

│ ├── XXX.wav

│ ├── ...

├── VCTK

│ ├── XXX.flac

│ ├── ...

├── common_voice

│ ├── XXX.mp3

│ ├── ...

├── myst

│ ├── XXX.flac

│ ├── ...

音频文件转换

对于 MEAD 数据集中的 m4a 文件，需要转换为 wav 文件。可以使用以下 ffmpeg 脚本进行转换： bash for file in MEAD//audio///.m4a; do new_path="${file/MEAD/"MEAD_wav"}" parentdir="$(dirname "$new_path")" mkdir -p ${parentdir} ffmpeg -i "$file" -acodec pcm_s16le -ar 16000 -ac 1 "${new_path%.m4a}.wav" done

使用 Huggingface 加载数据集

可以使用 Huggingface Datasets 加载 SD-Eval 数据集。请将 audio_path 作为 data_dir 参数传入：

python from datasets import load_dataset

加载 test-emo 子集

dataset = load_dataset("amphion/SD-Eval", test-emo, data_dir=audio_path)

加载 test-acc 子集

dataset = load_dataset("amphion/SD-Eval", test-acc, data_dir=audio_path)

加载 test-age 子集

dataset = load_dataset("amphion/SD-Eval", test-age, data_dir=audio_path)

加载 test-env 子集；test-env 的音频数据在 Huggingface 上提供，无需设置 data_dir

dataset = load_dataset("amphion/SD-Eval", test-env)

引用

@article{ao2024sdeval, title = {SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words}, author = {Junyi Ao and Yuancheng Wang and Xiaohai Tian and Dekun Chen and Jun Zhang and Lu Lu and Yuxuan Wang and Haizhou Li and Zhizheng Wu}, eprint={2406.13340}, archivePrefix={arXiv}, primaryClass={cs.CL}, year={2024} }

许可证

数据集采用 CC BY-NC 4.0 许可证。代码采用 Apache 2.0 许可证。

搜集汇总

数据集介绍

构建方式

SD-Eval数据集的构建基于多维度的口语对话理解与生成评估需求，旨在推动更具同理心和智能的口语对话系统发展。该数据集从八个公开数据集中聚合了7,303条语音数据，总计8.76小时的语音时长，涵盖了情感、口音、年龄和背景音四个维度。数据集的构建过程包括数据收集、合成数据生成、标签归一化、数据过滤和标点恢复等步骤。通过结合真实录音和合成语音，SD-Eval确保了数据的多样性和代表性。

使用方法

SD-Eval数据集的使用方法主要包括模型训练和评估。首先，研究人员可以使用SD-Eval的训练集对模型进行训练，训练集包含1,052.72小时的语音数据和724.4k条语音片段。其次，在评估阶段，SD-Eval提供了四个子集用于测试模型在不同维度上的表现。评估方法包括客观评估（如BLEU和ROUGE）、主观评估以及基于大语言模型的评估。通过这些评估方法，研究人员可以全面衡量模型在生成响应时的自然性、连贯性和适应性。

背景与挑战

背景概述

SD-Eval是由香港中文大学（深圳）和字节跳动的研究团队于2024年提出的一个多维度口语对话理解与生成的基准数据集。该数据集旨在解决当前大语言模型（LLMs）在处理语音输入时，尤其是在生成适当响应方面的不足。SD-Eval通过整合来自八个公开数据集的7,303条语音数据，涵盖了情感、口音、年龄和背景音等四个维度的信息，总时长达到8.76小时。该数据集的创建是为了推动更具同理心和智能的口语对话系统的发展，特别是在考虑副语言和环境信息的情况下生成合适的响应。SD-Eval的提出为语音对话系统的评估提供了新的标准，推动了语音理解与生成领域的进一步研究。

当前挑战

SD-Eval面临的挑战主要体现在两个方面。首先，在领域问题的解决上，尽管大语言模型在多模态输入（如语音）的理解上取得了显著进展，但在生成基于语音输入的适当响应时仍存在不足。这主要是由于任务定义和模型开发原则的缺失，导致模型难以准确捕捉语音中的副语言和环境信息。其次，在数据集的构建过程中，研究人员面临了数据多样性和标注一致性的挑战。SD-Eval整合了多个公开数据集，但由于这些数据集的标注标准和类别定义不同，研究人员需要进行复杂的标签归一化和数据过滤工作，以确保数据集的一致性和质量。此外，生成多样化的响应并确保其与语音输入的情感、口音、年龄和背景音相匹配，也是一个技术上的难点。

常用场景

经典使用场景

SD-Eval数据集在语音对话系统的多维评估中具有经典应用场景。该数据集通过整合来自多个公开数据集的语音数据，涵盖了情感、口音、年龄和环境背景等多个维度，特别适用于评估语音对话系统在理解和生成对话时的表现。研究人员可以利用SD-Eval来测试模型在不同情境下的响应能力，例如在用户情绪波动、口音差异或环境噪音干扰的情况下，模型是否能够生成合适的回应。这种多维度的评估为语音对话系统的开发提供了全面的基准测试工具。

解决学术问题

SD-Eval数据集解决了语音对话系统中一个关键的学术问题，即如何评估模型在理解和生成对话时对副语言信息和环境信息的处理能力。传统的语音对话系统往往仅依赖于文本内容，而忽略了语音中的情感、口音、年龄和环境背景等丰富信息。SD-Eval通过提供多维度的评估数据，帮助研究人员开发出更具同理心和智能的对话系统，能够根据用户的情绪、口音和环境背景生成更为合适的回应。这一突破为语音对话系统的研究提供了新的方向。

实际应用

SD-Eval数据集在实际应用中具有广泛的前景。例如，在智能客服系统中，SD-Eval可以帮助系统更好地理解用户的情绪和口音，从而提供更为个性化的服务。在教育领域，该数据集可以用于开发针对不同年龄段学生的语音交互系统，确保系统能够根据学生的年龄和语言能力生成合适的回应。此外，在嘈杂环境中，如机场或商场，SD-Eval可以帮助语音助手更好地识别背景噪音，并生成与环境相符的回应，提升用户体验。

数据集最近研究