LiveChat

Name: LiveChat
Creator: 上海交通大学电子信息与电气工程学院
Published: 2023-06-14 17:50:06
License: 暂无描述

arXiv2023-06-14 更新2024-06-21 收录

下载链接：

https://github.com/gaojingsheng/LiveChat

下载链接

链接失效反馈

官方服务：

资源简介：

LiveChat是一个由上海交通大学电子信息与电气工程学院开发的大规模个性化对话数据集，包含1332073条真实生活中的中文对话。该数据集通过处理互联网上的大量直播视频自动构建，涵盖351个不同的人物角色和详细的个人资料。LiveChat旨在提高对话系统在直播等快速增长场景中的表现，通过引入详细的个人资料和大量的对话会话，提升个性化对话建模的能力。数据集的应用领域包括个性化对话生成和对话对象识别，旨在解决多参与者对话场景中的关键问题。

LiveChat is a large-scale personalized dialogue dataset developed by the School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University. It contains 1,332,073 real-life Chinese dialogues, and is automatically curated by processing a large corpus of live streaming videos sourced from the Internet. The dataset covers 351 distinct character roles with detailed personal profiles. LiveChat aims to improve the performance of dialogue systems in rapidly growing scenarios such as live streaming. By introducing detailed personal profiles and a large number of dialogue sessions, it enhances the capability of personalized dialogue modeling. The application areas of this dataset include personalized dialogue generation and dialogue partner recognition, targeting key issues in multi-participant dialogue scenarios.

提供机构：

上海交通大学电子信息与电气工程学院

创建时间：

2023-06-14

搜集汇总

数据集介绍

构建方式

LiveChat数据集通过自动化的方式从直播视频中构建，涵盖了133万条真实的中文对话。该数据集的构建过程包括三个主要步骤：首先，从抖音平台收集直播视频并将其转录为文本；其次，通过提出的‘回复-谁’匹配方法，将主播的回复与观众的评论进行匹配，形成对话对；最后，为每个主播创建详细的个人档案，包括基本信息和文本描述。这种自动化的构建方法使得数据集能够从海量的直播视频中高效提取对话，并确保对话的多样性和真实性。

特点

LiveChat数据集的显著特点在于其大规模、多样的对话内容和详细的个人档案。该数据集包含了351个主播的对话，平均每个主播有3795个对话会话，远超其他现有数据集。此外，每个主播的个人档案不仅包括基本信息如年龄、性别和地点，还包含了详细的文本描述，这些信息有助于个性化对话生成。数据集还涵盖了多方的对话场景，适合用于回复生成和被回复者识别等任务。

使用方法

LiveChat数据集可用于多个自然语言处理任务，主要包括回复生成和被回复者识别。在回复生成任务中，模型可以根据给定的对话上下文和主播的个人档案生成合适的回复；在被回复者识别任务中，模型需要从多个候选评论中识别出主播回复的目标评论。此外，该数据集还可用于预训练语言模型的领域适应性研究，特别是针对视频源数据的生成模型。通过这些任务，研究者可以开发更智能、更自然的对话系统，以适应直播等新兴场景。

背景与挑战

背景概述

近年来，开放域对话系统取得了显著进展，然而，现有的对话模型大多基于文本社交媒体数据构建，如Reddit和Weibo，这些数据在快速发展的直播场景中表现不佳。为了提升对话系统在直播场景中的响应能力，上海交通大学和Xiaobing.AI的研究团队于2023年推出了LiveChat数据集。该数据集包含133万条真实的中文对话，涵盖351个不同角色，每个角色拥有详细的个人档案。LiveChat通过自动处理互联网上的直播视频构建，旨在解决多轮对话中的响应建模和收件人识别问题，为直播场景下的对话系统研究提供了新的基准。

当前挑战

LiveChat数据集的构建面临两大挑战：首先，直播场景中的对话缺乏明确的回复关系，与社交媒体中的帖子不同，直播中的主播回复没有直接的链接指向特定的观众评论，这增加了回复关系识别的难度。其次，从视频中自动提取对话内容本身就是一个技术难题，尤其是如何从大量视频片段中准确提取有效的对话会话。此外，如何在保持数据隐私的前提下，为每个角色构建详细的个人档案，也是该数据集构建过程中的一大挑战。

常用场景

经典使用场景

LiveChat数据集的经典使用场景主要集中在个性化对话生成和多轮对话中的地址识别任务。通过该数据集，研究者可以训练对话系统，使其在直播场景中能够自然地与观众互动，并根据观众的评论生成个性化的回应。此外，LiveChat还支持多轮对话中的地址识别任务，即识别主播在回复时针对的具体观众评论，这对于构建更加智能和自然的对话系统至关重要。

衍生相关工作

LiveChat数据集的发布催生了一系列相关研究工作，特别是在个性化对话生成和多轮对话中的地址识别领域。研究者们基于该数据集提出了多种对话生成模型和地址识别算法，进一步推动了对话系统在直播场景中的应用。此外，LiveChat的成功构建也为其他视频源对话数据的自动提取提供了参考，促进了视频对话数据集的进一步发展。

数据集最近研究