five

LiveChat

收藏
arXiv2023-06-14 更新2024-06-21 收录
下载链接:
https://github.com/gaojingsheng/LiveChat
下载链接
链接失效反馈
官方服务:
资源简介:
LiveChat是一个由上海交通大学电子信息与电气工程学院开发的大规模个性化对话数据集,包含1332073条真实生活中的中文对话。该数据集通过处理互联网上的大量直播视频自动构建,涵盖351个不同的人物角色和详细的个人资料。LiveChat旨在提高对话系统在直播等快速增长场景中的表现,通过引入详细的个人资料和大量的对话会话,提升个性化对话建模的能力。数据集的应用领域包括个性化对话生成和对话对象识别,旨在解决多参与者对话场景中的关键问题。

LiveChat is a large-scale personalized dialogue dataset developed by the School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University. It contains 1,332,073 real-life Chinese dialogues, and is automatically curated by processing a large corpus of live streaming videos sourced from the Internet. The dataset covers 351 distinct character roles with detailed personal profiles. LiveChat aims to improve the performance of dialogue systems in rapidly growing scenarios such as live streaming. By introducing detailed personal profiles and a large number of dialogue sessions, it enhances the capability of personalized dialogue modeling. The application areas of this dataset include personalized dialogue generation and dialogue partner recognition, targeting key issues in multi-participant dialogue scenarios.
提供机构:
上海交通大学电子信息与电气工程学院
创建时间:
2023-06-14
搜集汇总
数据集介绍
main_image_url
构建方式
LiveChat数据集通过自动化的方式从直播视频中构建,涵盖了133万条真实的中文对话。该数据集的构建过程包括三个主要步骤:首先,从抖音平台收集直播视频并将其转录为文本;其次,通过提出的‘回复-谁’匹配方法,将主播的回复与观众的评论进行匹配,形成对话对;最后,为每个主播创建详细的个人档案,包括基本信息和文本描述。这种自动化的构建方法使得数据集能够从海量的直播视频中高效提取对话,并确保对话的多样性和真实性。
特点
LiveChat数据集的显著特点在于其大规模、多样的对话内容和详细的个人档案。该数据集包含了351个主播的对话,平均每个主播有3795个对话会话,远超其他现有数据集。此外,每个主播的个人档案不仅包括基本信息如年龄、性别和地点,还包含了详细的文本描述,这些信息有助于个性化对话生成。数据集还涵盖了多方的对话场景,适合用于回复生成和被回复者识别等任务。
使用方法
LiveChat数据集可用于多个自然语言处理任务,主要包括回复生成和被回复者识别。在回复生成任务中,模型可以根据给定的对话上下文和主播的个人档案生成合适的回复;在被回复者识别任务中,模型需要从多个候选评论中识别出主播回复的目标评论。此外,该数据集还可用于预训练语言模型的领域适应性研究,特别是针对视频源数据的生成模型。通过这些任务,研究者可以开发更智能、更自然的对话系统,以适应直播等新兴场景。
背景与挑战
背景概述
近年来,开放域对话系统取得了显著进展,然而,现有的对话模型大多基于文本社交媒体数据构建,如Reddit和Weibo,这些数据在快速发展的直播场景中表现不佳。为了提升对话系统在直播场景中的响应能力,上海交通大学和Xiaobing.AI的研究团队于2023年推出了LiveChat数据集。该数据集包含133万条真实的中文对话,涵盖351个不同角色,每个角色拥有详细的个人档案。LiveChat通过自动处理互联网上的直播视频构建,旨在解决多轮对话中的响应建模和收件人识别问题,为直播场景下的对话系统研究提供了新的基准。
当前挑战
LiveChat数据集的构建面临两大挑战:首先,直播场景中的对话缺乏明确的回复关系,与社交媒体中的帖子不同,直播中的主播回复没有直接的链接指向特定的观众评论,这增加了回复关系识别的难度。其次,从视频中自动提取对话内容本身就是一个技术难题,尤其是如何从大量视频片段中准确提取有效的对话会话。此外,如何在保持数据隐私的前提下,为每个角色构建详细的个人档案,也是该数据集构建过程中的一大挑战。
常用场景
经典使用场景
LiveChat数据集的经典使用场景主要集中在个性化对话生成和多轮对话中的地址识别任务。通过该数据集,研究者可以训练对话系统,使其在直播场景中能够自然地与观众互动,并根据观众的评论生成个性化的回应。此外,LiveChat还支持多轮对话中的地址识别任务,即识别主播在回复时针对的具体观众评论,这对于构建更加智能和自然的对话系统至关重要。
衍生相关工作
LiveChat数据集的发布催生了一系列相关研究工作,特别是在个性化对话生成和多轮对话中的地址识别领域。研究者们基于该数据集提出了多种对话生成模型和地址识别算法,进一步推动了对话系统在直播场景中的应用。此外,LiveChat的成功构建也为其他视频源对话数据的自动提取提供了参考,促进了视频对话数据集的进一步发展。
数据集最近研究
最新研究方向
近年来,对话系统在开放域场景中取得了显著进展,但现有的预训练模型在快速发展的直播场景中表现有限,主要由于预训练模型的迁移能力受限以及公开数据集的分布偏差。LiveChat数据集通过自动构建大规模个性化对话数据,填补了这一领域的空白。该数据集包含133万条真实的中文对话,涵盖351个不同角色,每个角色拥有详细的个人档案,平均每个角色有3800个对话会话。研究重点集中在响应建模和收件人识别两个关键任务上,通过引入基于检索的基线模型,验证了利用角色档案和更多会话数据对模型性能的积极影响。此外,研究还探讨了生成模型在LiveChat上的迁移学习效果,发现预训练对话模型在视频源数据上的表现不佳,而大型预训练语言模型在少样本设置下表现出更丰富的信息量,但相关性较差。这为未来在视频源数据集上进行参数高效的领域适应研究提供了方向。
相关研究论文
  • 1
    LiveChat: A Large-Scale Personalized Dialogue Dataset Automatically Constructed from Live Streaming上海交通大学电子信息与电气工程学院 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作