PRODIGy

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/LanD-FBK/prodigy-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PRODIGy是一个基于人物特征的对话生成数据集，每个对话都与说话者的个人资料表示相匹配，包括传记、语言风格、性别和个性。数据集从Cornell Movie Dialogs Corpus开始构建，为角色添加了MBTI性格类型、传记描述和性别信息，并生成了传记句子的两种替代改写。

PRODIGy is a dialogue generation dataset based on character traits, where each dialogue is matched with the speaker's profile representation, including biography, linguistic style, gender, and personality. The dataset is constructed starting from the Cornell Movie Dialogs Corpus, adding MBTI personality types, biographical descriptions, and gender information to the characters, and generating two alternative paraphrases of the biographical sentences.

创建时间：

2023-11-07

原始信息汇总

数据集概述

数据集名称

PRODIGy: a PROfile-based DIalogue Generation dataset

数据集来源

基于Cornell Movie Dialogs Corpus（Cristian Danescu-Niculescu-Mizil and Lillian Lee, 2011）构建，该数据集包含电影剧本中两角色间的对话。

数据集特点

每个对话与说话者的个人资料信息对齐，包括性别、MBTI性格类型、角色传记和对话内容。
为每个传记句子生成两个替代的改写版本，以增加表达多样性。

数据集统计

对话数量：20850
对话轮数：80604
注释角色数量：339
平均每对话轮数：4 (±3.28)
平均每角色对话数：78 (±31.21)
平均每传记句子数：8 (±1.57)
平均每传记句子词数：13 (±5.66)

文件描述

prodigy_dataset.json: 包含对话及其相关说话者的列表。
characters.json: 包含注释了性别、MBTI、传记及其改写的角色列表。
inter_character_partitions.json: 用于Inter-Character实验的训练、验证和测试分割的索引列表。
intra_character_partitions.json: 用于Intra-Character实验的训练、验证和测试分割的索引列表。

引用信息

bibtex @misc{occhipinti2023prodigy, title={PRODIGy: a PROfile-based DIalogue Generation dataset}, author={Daniela Occhipinti and Serra Sinem Tekiroglu and Marco Guerini}, year={2023}, eprint={2311.05195}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

PRODIGy数据集的构建基于Cornell Movie Dialogs Corpus，该语料库包含电影剧本中的对话。研究团队通过为每个角色关联个性信息，如Myers-Briggs Type Indicator（MBTI）人格类型、传记描述和性别信息，进一步丰富了数据集的内容。为确保传记表达的多样性，研究者为每句传记生成了两种不同的释义，并将其整合到数据集中。这种多维度的信息扩展使得PRODIGy成为了一个包含丰富个性特征的对话生成数据集。

特点

PRODIGy数据集的显著特点在于其对话与说话者多维度特征的紧密结合，包括性别、MBTI人格类型、角色传记及对话内容。数据集不仅提供了原始对话，还通过释义技术增强了传记信息的多样性，从而为模型提供了更为丰富的训练素材。此外，数据集的统计显示，每个对话平均包含4个回合，每个角色平均有78个对话，这为研究者提供了多样化的对话场景和丰富的个性特征样本。

使用方法

PRODIGy数据集的使用方法多样，研究者可以通过`prodigy_dataset.json`文件访问对话及其相关说话者的详细信息，而`characters.json`文件则提供了角色的性别、MBTI类型、传记及其释义。此外，`experimental_partitions`文件夹中的分区和索引文件为实验提供了不同的训练、验证和测试配置，支持跨角色和角色内实验，便于研究者在不同场景下评估模型的性能。

背景与挑战

背景概述

PRODIGy数据集是由Daniela Occhipinti、Serra Sinem Tekiroglu和Marco Guerini于2023年创建的，旨在通过结合电影对话中的角色传记、语言风格、性别和个性特征，推动基于角色档案的对话生成研究。该数据集基于Cornell Movie Dialogs Corpus，通过引入Myers-Briggs Type Indicator (MBTI)个性类型、角色传记及其改写版本，丰富了对话生成模型的训练数据。PRODIGy不仅提供了超过20,000个对话，还通过多样化的角色档案信息，为对话生成模型提供了更全面的训练资源，对提升对话系统的连贯性和一致性具有重要意义。

当前挑战

PRODIGy数据集在构建过程中面临多重挑战。首先，如何从电影对话中提取并准确标注角色的个性特征和传记信息，确保数据的多样性和代表性，是一个复杂的问题。其次，生成传记的改写版本以增强数据多样性，同时保持语义一致性，也是一项技术难题。此外，如何在对话生成任务中有效利用这些丰富的角色档案信息，提升模型在不同情境下的表现，尤其是在跨领域设置中的适应性，是该数据集面临的另一大挑战。

常用场景

经典使用场景

PRODIGy数据集的经典使用场景在于对话生成任务中，特别是在需要考虑说话者个性化特征的情况下。通过将对话与说话者的性别、MBTI性格类型、传记描述及其语言风格相结合，研究者能够训练出更加一致且连贯的对话模型。这种结合不仅提升了对话系统的自然度，还增强了其在不同情境下的适应性。

实际应用

在实际应用中，PRODIGy数据集可用于开发更加智能和个性化的对话系统，如虚拟助手、在线客服和社交机器人。这些系统能够根据用户的个性特征和背景信息，提供更加贴合用户需求的对话体验，从而提升用户满意度和系统效能。

衍生相关工作

基于PRODIGy数据集，研究者已开展了一系列相关工作，包括个性化对话生成模型的训练与评估、跨领域对话系统的适应性研究以及基于指令的大型语言模型（LLMs）的微调。这些工作不仅验证了PRODIGy在提升对话系统性能方面的潜力，还为未来的个性化对话研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集