five

CrossDial

收藏
arXiv2022-09-03 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2209.01370v1
下载链接
链接失效反馈
官方服务:
资源简介:
CrossDial数据集由北京大学王选计算机技术研究所创建,是首个开放源代码的中文相声对话数据集。该数据集包含1257个相声剧本,共计140432条数据样本,均从互联网上爬取。数据集的创建过程包括数据收集、样本创建和干扰项生成三个阶段,确保了数据的质量和适用性。CrossDial数据集主要用于研究自动生成中文相声对话,旨在解决传统艺术中剧本缺乏的问题,同时也为商业产品如聊天机器人提供更吸引人的对话生成能力。

The CrossDial dataset, created by the Wangxuan Institute of Computer Technology at Peking University, is the first open-source Chinese cross-talk dialogue dataset. It contains 1,257 cross-talk scripts, totaling 140,432 data samples, all crawled from the Internet. The dataset's development process includes three key stages: data collection, sample creation, and distractor generation, which collectively ensure the data quality and applicability. The CrossDial dataset is primarily used for research on automatic generation of Chinese cross-talk dialogues, aiming to solve the problem of script shortage in this traditional art form, and also provides more engaging dialogue generation capabilities for commercial products such as chatbots.
提供机构:
王选计算机技术研究所,北京大学
创建时间:
2022-09-03
搜集汇总
数据集介绍
main_image_url
构建方式
CrossDial数据集的构建方式主要分为三个阶段:数据收集、样本创建和干扰项生成。首先,从互联网上爬取了包含大部分经典中国相声的1257个相声剧本。然后,将所有相声剧本分割成上下文-回应对,作为CRG任务的数据样本。最后,为CRS任务设计了精致的干扰项,以确保它们与黄金回应相似且与上下文语义一致。
特点
CrossDial数据集的特点在于它是一个大规模的对话数据集,包含1257个相声剧本和140432个数据样本。它是一个开源的数据集,覆盖了大部分经典的中国相声。此外,数据集被分为两个子集:逗哏和捧哏,分别对应于相声中的主要角色和辅助角色。每个CRG任务样本包含上下文和正面回应两个字段,而每个CRS任务样本则包含三个额外的负面回应。
使用方法
CrossDial数据集可以用于研究自动生成相声的任务。研究人员可以使用这个数据集来训练和评估他们的对话生成模型。此外,数据集还包含两个任务:相声回应生成和相声回应选择,可以为主流方法提供两个基准。
背景与挑战
背景概述
相声,又称相声,是一种传统的中国戏曲表演艺术。它通常由两位表演者以对话的形式进行表演,旨在娱乐观众。本研究介绍了CrossDial,这是一个包含大部分经典中文相声的开放源代码数据集,从网络中爬取而来。此外,我们定义了两个新任务,提供了两个基准测试,并研究了当前对话生成模型在相声生成领域的应用能力。实验结果和案例研究表明,相声生成对于简单方法来说是一个挑战,并且仍然是未来工作的有趣话题。
当前挑战
相声生成面临的挑战包括:1) 所解决的领域问题是自动生成具有娱乐性的对话;2) 构建过程中所遇到的挑战包括数据收集、样本创建和干扰项生成。相声的语言模式丰富,包含喜剧表演技巧,如双关语,通常以快速、诙谐的风格呈现。此外,相声中存在两种角色的模式,即逗哏和捧哏,这也为自动生成相声带来了挑战。
常用场景
经典使用场景
CrossDial数据集的构建旨在推动中国传统相声艺术的自动生成研究,其经典使用场景包括但不限于:训练对话生成模型,以生成符合相声表演特征的对话;通过相声对话生成和选择任务,评估当前对话生成模型在相声生成方面的能力;研究相声的语言风格和表演模式,以期为传统艺术的传承和创新提供支持。
解决学术问题
CrossDial数据集解决了相声自动生成这一学术研究问题,相声作为一种具有特殊语言风格和表演模式的艺术形式,对自动生成模型的挑战较大。CrossDial数据集的提出为相声自动生成研究提供了数据基础,有助于推动该领域的进一步发展。同时,CrossDial数据集也为幽默生成和对话生成等领域的学术研究提供了新的研究方向和数据支持。
衍生相关工作
CrossDial数据集的提出,衍生了一系列相关工作,包括但不限于:基于CrossDial数据集的相声自动生成模型的研究;针对相声生成任务的模型评估指标的研究;相声语言风格和表演模式的研究;以及相声艺术的数字化传播和推广研究。这些相关工作有助于推动相声自动生成和相关领域的研究发展,为传统艺术的传承和创新提供支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作