HealthCall

github2022-10-21 更新2024-05-31 收录

下载链接：

https://github.com/nikolalackovic/HealthCall

下载链接

链接失效反馈

官方服务：

资源简介：

HealthCall数据集基于真实的呼叫中心代理与Malakoff Humanis客户之间的音频互动，旨在研究自然口语对话并预测CRM注释。该数据集包含2416个不同长度的口语对话，每个对话都经过匿名处理，符合GDPR建议，并包括CRM注释和由Kaldi-based ASR系统制作的转录。

The HealthCall dataset is based on real audio interactions between call center agents and Malakoff Humanis customers, aiming to study natural spoken dialogues and predict CRM annotations. This dataset comprises 2,416 spoken dialogues of varying lengths, each anonymized in compliance with GDPR recommendations, and includes CRM annotations along with transcriptions produced by a Kaldi-based ASR system.

创建时间：

2022-03-27

原始信息汇总

HealthCall 数据集概述

数据集描述

数据来源：基于真实电话中心代理与Malakoff Humanis客户的音频交互。
数据目的：研究自然口语对话，预测CRM注释。
数据组成：包含2416次口语对话，时长从几分钟到几十分钟不等。
数据特点：对话已匿名处理，符合GDPR推荐，并包含CRM注释及基于Kaldi的ASR系统转录。

数据集统计

总对话数：2416
总时长：251小时53分钟
最长对话：46分钟36秒
最短对话：1分钟18秒
实验集分布：
- 训练集对话数：1214
- 开发集对话数：1202

数据集结构

文件格式：JSON
结构示例： json "status": "qualified", "timestamp": "2021-01-25T10:26:11.279794Z", "transcript_json": { "callData": [ { "content": "[pers.pre] bonjour", "datetime": 2.98, "duration": 0.88, "from": "out", "score": 0.86, "words": [ { "length": 0.36, "score": 1.0, "start": 2.98, "value": [pers.pre] } ] } ] }

数据集使用许可

使用限制：仅限于非商业AI研究和开发。
修改限制：禁止修改、编辑和复制数据。
分发限制：禁止向第三方或公众分发数据。
来源声明：使用时需明确标注数据来源为“Malakoff Humanis”。

数据集样本

音频样本下载链接：音频样本
JSON样本下载链接：JSON样本

联系方式

电子邮件：nikola.lackovic@malakoffhumanis.com 或 niko.lackovic@gmail.com

引用方式

@article{N. Lackovic, C. Montacié, G. Lalande, and M.-J. Caraty, “Prediction of User Request and Complaint in Spoken Customer-Agent Conversations”, preprint arXiv:2208.10249, 2022}

搜集汇总

数据集介绍

构建方式

HealthCall数据集的构建基于真实的电话中心代理与客户之间的音频交互数据，旨在研究自然语言对话并预测客户关系管理（CRM）注释。该数据集包含2416段不同时长的对话，每段对话均经过匿名化处理，符合《通用数据保护条例》（GDPR）的要求。此外，每段对话还包含由Kaldi自动语音识别系统生成的转录文本，确保了数据的多样性和实用性。

特点

HealthCall数据集的特点在于其丰富的对话内容和多样化的音频特征。数据集涵盖了从几分钟到数十分钟不等的对话，总时长超过251小时。每段对话均附有详细的CRM注释，涵盖了客户请求、投诉等多种情境。数据集的结构以JSON格式呈现，便于研究人员进行数据解析和分析。此外，数据集的匿名化处理确保了用户隐私的保护，使其在学术研究中具有较高的可信度和安全性。

使用方法

HealthCall数据集的使用方法主要围绕非商业性的人工智能研究和开发展开。用户可以通过下载提供的音频和JSON样本文件进行初步探索。数据集的JSON结构清晰，便于提取对话内容、时间戳、语音特征等信息。研究人员可以利用这些数据进行语音识别、情感分析、客户行为预测等研究。需要注意的是，数据的使用必须严格遵守许可协议，禁止任何形式的商业用途、数据修改或公开传播，以确保数据的安全性和合法性。

背景与挑战

背景概述

HealthCall数据集由Malakoff Humanis与索邦大学的研究团队于2022年共同创建，旨在研究客户与呼叫中心代理之间的自然语音对话。该数据集包含2416段真实通话录音，总时长超过251小时，涵盖了从信息查询到问题解决等多种对话场景。通过结合语音、音频和语言学特征，数据集的核心研究问题在于预测客户关系管理（CRM）注释，从而为语音交互分析提供支持。该数据集不仅为语音识别和自然语言处理领域提供了宝贵的资源，还推动了客户服务自动化技术的发展。

当前挑战

HealthCall数据集在构建和应用中面临多重挑战。首先，语音数据的多样性和复杂性使得从对话中提取有效特征变得困难，尤其是在处理不同口音、语速和背景噪声时。其次，数据集的匿名化处理虽然符合GDPR要求，但也可能影响数据的完整性和可用性。此外，CRM注释的预测任务需要高精度的模型，而现有模型的性能仍有待提升。最后，数据集的非商业使用限制虽然保护了隐私和版权，但也限制了其在更广泛场景中的应用。这些挑战为未来的研究提供了重要的方向。

常用场景

经典使用场景

HealthCall数据集在自然语言处理和语音识别领域具有广泛的应用，尤其是在研究客户服务电话中的自然对话模式。该数据集通过提供真实的客户与客服之间的语音交互数据，帮助研究者深入分析对话中的语言特征和情感表达，从而优化自动语音识别系统的性能。

衍生相关工作

基于HealthCall数据集，研究者已经开发了多种先进的语音识别和自然语言处理模型。例如，使用Wave2Vec和Camembert-base等预训练模型进行语音和文本分析，这些工作不仅推动了相关技术的发展，也为未来的研究提供了宝贵的参考。

数据集最近研究