five

Synthetic Diarization Corpus

收藏
github2024-04-30 更新2024-05-31 收录
下载链接:
https://github.com/EMRAI/emrai-synthetic-diarization-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
一个从LibriSpeech语料库构建的合成对话语料库,免费提供给分词研究使用。它包含超过90小时的训练数据,以及超过9小时的开发和测试数据。包括2人和3人的对话,有或无重叠。提供多种格式的计时信息,不仅包括说话人分割,还包括音素分割,是分词系统开发,特别是早期阶段开发的良好起点。

A synthetic dialogue corpus constructed from the LibriSpeech corpus, freely available for research on tokenization. It encompasses over 90 hours of training data, along with more than 9 hours of development and testing data. The corpus includes dialogues involving two and three participants, with or without overlapping speech. It provides timing information in various formats, including not only speaker segmentation but also phoneme segmentation, making it an excellent starting point for the development of tokenization systems, particularly in the early stages.
创建时间:
2018-04-12
原始信息汇总

数据集概述

数据集名称

Synthetic Diarization Corpus

数据集描述

该数据集由LibriSpeech语料库构建,旨在为语音分割研究提供合成对话语料。数据集包含超过90小时的训练数据,以及超过9小时的开发和测试数据。数据集包括2人和3人的对话,涵盖有无语音重叠的情况。此外,数据集提供多种格式的定时信息,包括说话人分割和音素分割,适用于语音分割系统的早期开发阶段。

数据集结构

数据集包含以下四个顶级目录:

  • librispeech2: 2人对话
  • librispeech2o: 2人对话(含语音重叠)
  • librispeech3: 3人对话
  • librispeech3o: 3人对话(含语音重叠)

所有子目录均为Kaldi表数据目录。音频文件采用16kHz PCM 16bit小端单声道编码。

数据格式

  • ctm: 每行包含波形文件名、说话人、段落开始时间、段落持续时间和单词。
  • labs: 每行对应0.01秒音频,表示说话人ID或暂停(0)。
  • rttm0: 富转录时间标记文件格式。
  • rttm: 合并的rttm0,不含暂停。

许可信息

数据集根据CC BY 4.0许可发布,使用时需引用相关文献。

引用文献

Edwards, E., Brenndoerfer, M., Robinson, A., Sadoughi, N., Finley, G. P., Korenevsky, M., Axtmann, N. & Suendermann-Oeft, D. (2018, September). A Free Synthetic Corpus for Speaker Diarization Research. In International Conference on Speech and Computer (pp. 113-122). Springer, Cham.

搜集汇总
数据集介绍
main_image_url
构建方式
Synthetic Diarization Corpus 数据集通过从 LibriSpeech 语料库中构建对话合成而来,旨在为说话人日志研究提供丰富的训练和测试资源。该数据集包含了超过90小时的训练数据,以及分别超过9小时的开发和测试数据。对话形式涵盖了2人和3人对话,并包括有无重叠语音的情况。此外,数据集提供了多种时间信息格式,不仅包括说话人分割信息,还涵盖了音素分割信息,从而为早期阶段的说话人日志系统开发提供了坚实的基础。
使用方法
Synthetic Diarization Corpus 数据集的使用方法相对直观。数据集被划分为四个顶级目录,分别对应不同类型的对话:librispeech2(2人对话)、librispeech2o(2人重叠对话)、librispeech3(3人对话)和librispeech3o(3人重叠对话)。所有子目录均为Kaldi表数据目录,音频文件采用16kHz PCM 16bit小端序单声道编码。用户可以根据需要选择不同格式的标注文件,如ctm、labs和rttm,以支持不同的研究和开发需求。
背景与挑战
背景概述
Synthetic Diarization Corpus 是由Erik Edwards等人于2018年基于LibriSpeech语料库构建的合成对话语料库,旨在为说话人日志(diarization)研究提供丰富的训练和测试数据。该数据集包含了超过90小时的训练数据,以及分别超过9小时的开发和测试数据,涵盖了2人和3人对话,并包括有重叠和无重叠的对话场景。此外,数据集提供了多种时间信息格式,不仅包括说话人分割,还涵盖了音素分割,为早期阶段的说话人日志系统开发提供了坚实的基础。该数据集的发布对推动说话人日志技术的发展具有重要意义,尤其是在多说话人场景下的语音识别和分割任务中。
当前挑战
Synthetic Diarization Corpus 在构建过程中面临了多项挑战。首先,如何从LibriSpeech语料库中合成出自然且多样化的对话场景,尤其是处理重叠语音的生成,是一个复杂的技术难题。其次,确保合成对话中的时间信息准确性,特别是说话人和音素的分割,需要高精度的算法支持。此外,数据集的多样性和规模也带来了存储和处理上的挑战,尤其是在大规模训练和测试数据的组织与管理方面。最后,如何确保数据集在不同说话人日志系统中的通用性和适用性,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
Synthetic Diarization Corpus 数据集的经典使用场景主要集中在语音分割与说话人识别领域。该数据集通过提供超过90小时的训练数据以及9小时的开发和测试数据,涵盖了2人和3人对话,包括有和无重叠的情况,为早期阶段的说话人分割系统开发提供了丰富的资源。其详细的时序信息和多种格式(如ctm、labs、rttm等)使得研究人员能够精确地进行语音分割和说话人识别的实验与模型训练。
解决学术问题
该数据集解决了语音分割与说话人识别领域中常见的学术研究问题,特别是在早期系统开发阶段,如何有效处理多说话人对话中的重叠语音和精确分割问题。通过提供详细的时序信息和多种格式,Synthetic Diarization Corpus 为研究人员提供了一个标准化的基准,有助于推动该领域的技术进步和算法优化。
实际应用
在实际应用中,Synthetic Diarization Corpus 数据集可广泛应用于会议记录、电话客服分析、语音助手等多个领域。例如,在会议记录中,该数据集可以帮助自动识别和记录不同发言者的内容,提高会议记录的效率和准确性。在电话客服分析中,它可以帮助识别客户和客服的对话,从而进行更有效的服务质量评估。
数据集最近研究
最新研究方向
在语音处理领域,Synthetic Diarization Corpus 数据集的最新研究方向主要集中在多说话人语音分割与识别技术的优化上。该数据集通过提供包含重叠语音的2人和3人对话,为研究者提供了丰富的实验材料,尤其是在早期阶段的说话人分割系统开发中。近年来,随着深度学习技术的进步,基于神经网络的说话人识别模型在该数据集上的应用取得了显著进展,尤其是在处理复杂的多说话人场景和重叠语音时表现出色。此外,该数据集的多种时间信息格式也为多模态语音处理研究提供了有力支持,推动了语音识别与说话人分割技术的融合研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作