Japanese Corpus for Human-AI Talks (J-CHAT)

Name: Japanese Corpus for Human-AI Talks (J-CHAT)
Creator: 东京大学, 庆应大学
Published: 2024-07-23 01:46:50
License: 暂无描述

arXiv2024-07-23 更新2024-07-24 收录

下载链接：

https://huggingface.co/datasets/sarulab-speech/J-CHAT

下载链接

链接失效反馈

官方服务：

资源简介：

日本人类-AI对话语料库（J-CHAT）是由东京大学和庆应大学联合创建的大规模日语口语对话数据集。该数据集包含69,000小时的语音数据，来源于YouTube和播客，旨在提供自然且清晰的对话样本。数据集的创建过程包括自动化的数据收集、语言识别、对话提取和噪音去除。J-CHAT主要用于训练对话导向的口语语言模型，以提高人机交互的自然性和有效性。

The Japanese Human-AI Dialogue Corpus (J-CHAT) is a large-scale spoken Japanese dialogue dataset jointly developed by the University of Tokyo and Keio University. This corpus contains 69,000 hours of speech data sourced from YouTube and podcasts, and is designed to provide natural and clear conversational samples. The dataset construction process includes automated data collection, speech recognition, dialogue extraction and noise removal. J-CHAT is primarily used for training dialogue-oriented spoken language models, aiming to enhance the naturality and effectiveness of human-computer interaction.

提供机构：

东京大学, 庆应大学

创建时间：

2024-07-23

搜集汇总

数据集介绍

构建方式

J-CHAT数据集的构建方式主要依赖于互联网上的数据收集，包括YouTube和播客平台。首先，从YouTube上下载约180k小时的音频数据，然后从播客平台上获取约140k小时的音频数据。接着，使用Whisper的语言识别模型过滤出日语语音数据，并利用PyAnnote等预训练的说话人分割模型识别对话部分。最后，通过去除背景噪声，使数据达到音频清晰的标准。这种自动化、可扩展的数据收集方法，为构建大规模的对话语料库提供了新的思路。

特点

J-CHAT数据集具有以下特点：首先，数据规模庞大，总计69k小时的日语语音数据，包含超过490万个对话片段。其次，数据自然，来源于真实世界的对话，覆盖了广泛的对话主题。第三，数据清晰，通过噪声去除技术处理，确保了音频质量。此外，J-CHAT数据集的构建方法不受语言限制，为其他语言的对话语料库构建提供了参考。

使用方法

J-CHAT数据集的使用方法如下：首先，将数据集分为训练集、验证集和测试集。然后，使用HuBERT模型提取语音特征，并进行k-means聚类。接着，使用HiFi-GAN声码器根据离散化后的语音特征生成语音。最后，使用dGSLM模型进行对话生成。实验结果表明，使用J-CHAT数据集训练的dGSLM模型在自然度和有意义性方面表现出色，为对话生成模型的构建提供了有力支持。

背景与挑战

背景概述

言语对话系统在人类与人工智能交流中扮演着至关重要的角色，因此，需要开发面向对话的言语语言模型（SLMs）。为了培养通用的SLMs，需要大规模和多样化的语音数据集。此外，为了保证高质量的语音生成，数据必须像野外数据一样自发，并且在声学上干净，无噪声。尽管有这种关键需求，但没有满足所有这些标准的开源语料库。本研究通过构建和发布名为“日本人类-人工智能对话语料库”（J-CHAT）的大规模语音对话语料库，填补了这一空白。J-CHAT是一个公开可访问的大规模语音对话语料库，旨在解决现有数据集在规模、自发性和声学清洁度方面的不足。

当前挑战

构建J-CHAT数据集的过程中面临了多项挑战。首先，从多个领域收集大规模语音数据是一项挑战，因为这需要开发一种自动化的语料库构建方法，以确保可扩展性。其次，从网络中收集的数据可能包含不适当的语言、对话和声学内容，需要通过语言识别、对话提取和噪声消除等技术进行筛选和清洁。此外，现有的语音对话语料库主要集中在英语，而在其他语言（如日语）方面的进展有限。因此，构建一个大型、自发且声学清洁的日语语音对话语料库也是一个挑战。

常用场景

经典使用场景

J-CHAT数据集被广泛应用于对话生成模型的研究中。它为研究者提供了一个大规模、自然且干净的日语对话语料库，可以用于训练和评估对话生成模型。研究者可以利用J-CHAT数据集来训练各种对话生成模型，如dGSLM，以生成更加自然和有意义的对话。

衍生相关工作

J-CHAT数据集的发布推动了对话生成模型领域的研究进展。基于J-CHAT数据集，研究者可以开展更多关于对话生成模型的研究，例如模型架构的改进、生成对话的质量评估等。此外，J-CHAT数据集的构建方法也为其他语言的对话语料库的构建提供了参考和借鉴。

数据集最近研究