Ellipsis Health 的美国英语对话语音语料库

Name: Ellipsis Health 的美国英语对话语音语料库
Creator: Ellipsis Health, 旧金山, 加利福尼亚州, 美国
Published: 2024-12-22 15:21:51
License: 暂无描述

arXiv2024-12-22 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.16900v1

下载链接

链接失效反馈

官方服务：

资源简介：

Ellipsis Health 的美国英语对话语音语料库是一个专有的数据集，包含10,932个独特的说话者，主要用于研究基于语音的抑郁症预测。数据集中的语音样本来自人机交互，每个会话平均包含354秒的音频，并附有PHQ-8抑郁症量表的自我报告结果。数据集的创建旨在通过大规模数据验证迁移学习在抑郁症预测中的效果，特别是在二分类和回归任务中的应用。

Ellipsis Health's American English conversational speech corpus is a proprietary dataset encompassing 10,932 unique speakers, primarily designed for research on speech-based depression prediction. The speech samples within the dataset originate from human-machine interactions, with each session averaging 354 seconds of audio, and are paired with self-reported outcomes from the PHQ-8 depression scale. This dataset was created to validate the effectiveness of transfer learning in depression prediction, specifically for binary classification and regression tasks, leveraging large-scale data.

提供机构：

Ellipsis Health, 旧金山, 加利福尼亚州, 美国

创建时间：

2024-12-22

搜集汇总

数据集介绍

构建方式

Ellipsis Health 的美国英语对话语音语料库的构建基于大规模的人机交互语音数据收集。该数据集包含来自10,932名独特说话者的语音样本，每位说话者在会话中自由回答与个人生活相关的问题，平均每个会话时长为354秒。为了确保数据的多样性和代表性，数据集涵盖了不同性别和年龄段的参与者，其中59%为女性，41%为男性，年龄范围从18岁到64岁。每个会话结束后，参与者需完成PHQ-8抑郁量表，该量表作为机器预测的金标准标签。数据集被划分为训练集、开发集和测试集，且各集之间没有重叠的说话者，以确保模型的泛化能力。

特点

该数据集的特点在于其规模显著大于以往相关研究使用的数据集，包含的说话者和会话数量均比主流基准数据集高出两个数量级。此外，数据集中的语音样本来自自然的人机交互场景，反映了真实的语言使用情况。PHQ-8标签的分布呈现出偏态特征，大多数参与者的抑郁评分较低，仅有少数评分较高，这为研究提供了丰富的数据分布。数据集的划分方式确保了模型在开发集和测试集上的性能具有可比性，且避免了说话者重叠带来的偏差。

使用方法

该数据集主要用于基于语音的抑郁预测研究，支持分类和回归任务。在分类任务中，PHQ-8评分被映射为二元标签（抑郁或非抑郁），而在回归任务中，直接预测PHQ-8评分。研究者可以使用该数据集训练端到端的声学模型，并通过迁移学习提升模型性能。具体而言，模型首先通过自动语音识别（ASR）任务进行预训练，随后仅保留编码器权重用于抑郁预测任务。这种方法不仅简化了运行时模型，还显著提升了预测性能。数据集的规模确保了模型在不同数据分割上的性能稳定性，为实际应用提供了可靠的基准。

背景与挑战

背景概述

Ellipsis Health 的美国英语对话语音语料库是由Ellipsis Health团队创建的一个大规模语音数据集，旨在通过语音信号预测抑郁症。该数据集包含近11,000名独特的说话者，远超过以往相关研究中使用的小规模数据集。数据集的核心研究问题是通过语音信号中的声学和语言特征，利用深度学习技术进行抑郁症的自动预测。Ellipsis Health团队提出了一种基于轻量级编码器的迁移学习方法，仅迁移编码器权重，从而简化了运行时模型。该研究在抑郁症预测任务中取得了显著的性能提升，尤其是在二分类任务中，相对性能提升了27%。这一成果为行为健康管理领域提供了新的技术路径，尤其是在COVID-19等全球性事件加剧心理健康问题的背景下，具有重要的现实意义。

当前挑战

Ellipsis Health 的美国英语对话语音语料库在构建和应用过程中面临多重挑战。首先，抑郁症预测任务本身具有高度复杂性，语音信号中的情感和语言特征往往难以捕捉，且抑郁症的表现形式多样，增加了模型的训练难度。其次，数据集的构建面临隐私和伦理问题，由于涉及心理健康数据，数据集的公开共享受到严格限制，这限制了社区对数据的直接比较和验证。此外，数据集的规模虽然庞大，但其来源主要为美国英语使用者，可能限制了模型在其他语言和文化背景下的泛化能力。在技术层面，尽管迁移学习方法显著提升了模型性能，但如何选择合适的源任务以及如何优化迁移学习过程仍是一个开放性问题。最后，数据集中抑郁症标签的分布不均衡，大多数参与者的PHQ-8得分较低，这可能导致模型对少数高得分样本的预测能力不足。

常用场景

经典使用场景

Ellipsis Health 的美国英语对话语音语料库在抑郁症预测领域具有广泛的应用。该数据集通过收集大量美国英语对话语音样本，结合患者自我报告的健康问卷（PHQ-8），为基于语音的抑郁症预测算法提供了丰富的训练和测试数据。其经典使用场景包括利用深度学习模型，特别是基于编码器的迁移学习方法，从语音信号中提取抑郁症相关的声学和语言特征，从而实现高效的抑郁症筛查和监测。

解决学术问题

该数据集解决了抑郁症预测领域中数据稀缺和模型泛化能力不足的问题。通过提供包含近11,000名独特说话者的大规模语音数据，研究人员能够更可靠地评估迁移学习的效果，并显著提升模型的预测性能。实验结果表明，基于该数据集的迁移学习方法在二分类任务中相对性能提升了27%，并且在回归任务中也表现出显著的改进。这一成果为抑郁症的自动筛查提供了强有力的技术支持，推动了行为健康管理领域的研究进展。

衍生相关工作

基于Ellipsis Health 的语音语料库，衍生出了一系列经典的抑郁症预测研究工作。例如，研究人员探索了不同深度卷积神经网络（CNN）和长短期记忆网络（LSTM）在语音信号中的应用，并提出了基于编码器的迁移学习方法。这些研究不仅验证了大规模数据集在提升模型性能方面的优势，还为后续研究提供了新的思路，如进一步优化模型架构、探索无监督学习任务以及扩展数据集的语言和风格多样性，以提升模型的泛化能力和实际应用效果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集