five

哈利波特对话(HPD)数据集|对话代理数据集|自然语言处理数据集

收藏
arXiv2023-10-09 更新2024-06-21 收录
对话代理
自然语言处理
下载链接:
https://nuochenpku.github.io/HPD.github.io
下载链接
链接失效反馈
资源简介:
哈利波特对话(HPD)数据集是由腾讯AI实验室和香港科技大学(广州)联合创建的双语数据集,旨在推进对话代理与故事角色对齐的研究。该数据集包含《哈利波特》系列小说中的所有对话,涵盖英语和中文版本,并附有重要的背景信息,如对话场景、说话者、角色关系和属性。HPD数据集不仅为大型语言模型提供了丰富的角色驱动对话能力,还可用作评估语言模型与特定角色对齐程度的通用基准。此外,数据集的构建过程中,特别关注了场景、属性和关系的动态变化,以更准确地反映故事情节的发展。HPD数据集的应用领域广泛,特别是在提升对话代理与故事角色的对齐度方面,展示了其重要价值。
提供机构:
腾讯AI实验室
创建时间:
2022-11-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
哈利波特对话(HPD)数据集的构建基于《哈利波特》系列小说中的所有对话场景,涵盖了英语和中文版本。数据集的构建过程包括从小说中提取对话内容,并由四位专业的哈利波特粉丝进行精细标注。标注内容包括对话场景、说话者、角色关系和属性等信息。每个对话会话都根据故事情节的发展进行了时间敏感的标注,确保角色关系和属性随着故事的推进而动态变化。训练集包含1042个对话会话,每个会话仅有一个正向响应,而测试集包含149个会话,每个会话包含1到3个正向响应和平均9个负向响应。
特点
HPD数据集的显著特点在于其丰富的背景信息标注,包括对话场景、角色关系和属性等,这些信息随着故事情节的推进而动态变化。此外,数据集是双语的,涵盖了英语和中文版本,且不依赖机器翻译,确保了数据质量的一致性。数据集还提供了详细的测试集设计,支持对话生成和检索任务的评估。通过这些标注,HPD数据集为研究对话代理与角色对齐提供了强有力的支持,尤其是在处理复杂的角色关系和动态属性时。
使用方法
HPD数据集可用于训练和评估对话生成模型,特别是那些旨在模拟特定角色行为的模型。研究者可以通过微调或上下文学习的方式使用该数据集,利用其丰富的背景信息来提升模型生成与哈利波特角色行为一致的对话响应的能力。数据集的测试集设计支持生成和检索任务的评估,研究者可以通过自动评估(如Bleu-1、Distinct-1等)和人工评估来衡量模型性能。此外,HPD数据集还可用于探索语言差异对角色对齐任务的影响,以及如何通过提示工程更好地引导模型生成符合角色特征的对话。
背景与挑战
背景概述
近年来,对话式大型语言模型(LLMs)如ChatGPT和GPT-4在构建开放域对话代理方面展现出巨大潜力。然而,将这些代理与特定角色或个体对齐仍是一个重大挑战,主要由于角色表征的复杂性和缺乏全面的标注数据。为此,腾讯AI实验室与香港科技大学合作,于2023年推出了哈利波特对话(HPD)数据集。该数据集涵盖了《哈利波特》系列小说中的所有对话(包括英文和中文版本),并附有详细的背景信息,如对话场景、说话者、角色关系和属性。这些丰富的标注旨在帮助LLMs生成更符合哈利波特角色特征的对话,并为角色对齐研究提供了一个通用的基准。
当前挑战
HPD数据集在构建过程中面临多重挑战。首先,LLMs的知识主要基于现实世界,可能与哈利波特的魔法世界设定产生冲突,导致生成内容与故事背景不符。其次,LLMs在处理复杂角色关系时表现不佳,尤其是在多重关系并存的情况下。最后,LLMs难以准确反映时间对角色的影响,导致角色在故事中的发展和表现出现不一致。此外,数据集的构建还面临标注复杂性和动态角色信息的挑战,现有的对话数据集通常缺乏随时间变化的动态标注,而HPD通过精细的角色关系和属性标注,试图解决这一问题。
常用场景
经典使用场景
哈利波特对话(HPD)数据集的经典使用场景主要集中在构建与角色对齐的对话代理。通过该数据集,研究者可以训练大型语言模型(LLMs)生成与哈利波特角色个性、情感和关系相符的对话。例如,模型可以根据对话历史、场景背景和角色属性生成符合哈利波特风格的对话,从而提升对话代理的个性化表现。
衍生相关工作
HPD数据集的发布催生了一系列相关研究工作,特别是在个性化对话生成和角色对齐领域。例如,研究者利用HPD数据集探索了如何通过动态角色关系和属性标注提升对话代理的表现。此外,HPD还为情感分析、阅读理解和虚拟角色建模等任务提供了丰富的数据支持。这些衍生工作进一步推动了个性化对话系统的发展,并为虚拟世界的角色建模提供了新的研究方向。
数据集最近研究
最新研究方向
哈利波特对话(HPD)数据集的最新研究方向主要集中在如何通过对话代理与特定角色的对齐,以提升对话系统的个性化和情境感知能力。该数据集不仅包含了哈利波特系列小说中的所有对话,还详细标注了对话场景、角色关系和属性,这些动态变化的信息为大语言模型(如ChatGPT和GPT-4)提供了丰富的背景知识,帮助其生成更符合角色特征的对话。研究者们通过微调和上下文学习的方法,探索如何利用这些标注信息来增强模型的角色对齐能力,尽管目前的结果显示模型在生成高质量、角色对齐的对话方面仍有显著提升空间,但HPD数据集为这一领域的研究提供了宝贵的资源和基准。
相关研究论文
  • 1
    Large Language Models Meet Harry Potter: A Bilingual Dataset for Aligning Dialogue Agents with Characters腾讯AI实验室 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录