five

BaiJia|历史角色扮演数据集|大型语言模型数据集

收藏
arXiv2025-01-06 更新2025-01-01 收录
历史角色扮演
大型语言模型
下载链接:
https://github.com/BAI-LAB/BaiJia
下载链接
链接失效反馈
资源简介:
BaiJia是一个由中国北京邮电大学创建的大规模历史角色扮演数据集,旨在为大语言模型提供低资源的历史角色扮演数据。该数据集包含19281个中国历史人物的信息,涵盖了唐、宋、元、明、清五个朝代。数据集的内容包括人物的传记、文学作品、家庭关系、历史事件等,数据来源广泛,包括历史文献、古籍、艺术作品、民间传说和口述传统。数据集的创建过程包括从多个来源收集人物简历、生成对话以及构建评估问题。该数据集的应用领域主要是增强大语言模型在历史角色扮演任务中的表现,旨在解决历史文本碎片化和多模态数据整合的挑战。
提供机构:
北京邮电大学
创建时间:
2024-12-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
BaiJia数据集的构建过程分为三个主要步骤:首先,通过多源数据收集了19,281位中国历史人物的详细简历,涵盖唐、宋、元、明、清五个朝代。这些简历包括人物的生平、家庭关系、职业成就等信息。其次,基于这些简历,采用GPT-4o-mini模型生成与历史背景相符的对话场景,并通过LLaMA-Factory框架进行LoRA微调,使大语言模型具备角色扮演能力。最后,构建了用于评估角色扮演能力的问答数据集,确保模型能够准确理解并回应历史人物的背景与行为。
使用方法
BaiJia数据集的使用方法主要包括三个方面:首先,研究人员可以利用数据集中的历史人物简历信息,训练大语言模型以模拟历史人物的行为与对话。其次,通过生成的对话场景,模型可以进行角色扮演任务的微调,提升其在历史背景下的对话生成能力。最后,数据集提供的问答资源可用于评估模型在历史角色扮演任务中的表现,确保其生成的对话与历史背景一致。此外,BaiJia还提供了一个公开的评估基准,便于研究人员对比不同模型在历史角色扮演任务中的性能。
背景与挑战
背景概述
BaiJia数据集由北京邮电大学的Ting Bai、Jiazheng Kang和Jiayang Fan等研究人员于2024年推出,旨在为大规模语言模型(LLMs)提供低资源的历史角色扮演数据。该数据集涵盖了19,281位中国历史人物,跨越唐、宋、元、明、清五个朝代,整合了人物的传记、文学作品、家庭关系、历史事件等多维度信息。BaiJia的创建填补了历史角色扮演领域的数据空白,为LLMs在历史角色扮演任务中的能力提升提供了重要支持。该数据集不仅推动了LLMs在历史角色扮演中的发展,还为相关研究提供了评估基准。
当前挑战
BaiJia数据集在构建过程中面临多重挑战。首先,历史文本记录的碎片化和多样性使得数据整合变得复杂,尤其是不同形式的历史文献、古籍、艺术作品和口述传统的融合。其次,历史人物的信息分布不均,部分人物的详细资料稀缺,导致数据完整性和一致性的问题。此外,生成符合历史背景的对话场景也极具挑战,需要确保对话内容与历史人物的身份、时代背景和文化特征相符。这些挑战不仅影响了数据集的构建效率,也对LLMs在历史角色扮演任务中的表现提出了更高的要求。
常用场景
经典使用场景
BaiJia数据集在历史角色扮演领域具有广泛的应用,特别是在大语言模型(LLMs)的训练与评估中。通过整合大量中国历史人物的生平、文学作品、家族关系及历史事件等多维度信息,BaiJia为LLMs提供了丰富的背景知识,使其能够在模拟历史人物对话时表现出更高的准确性和一致性。该数据集在历史教育、文化传播及虚拟角色扮演等场景中展现了其独特的价值。
解决学术问题
BaiJia数据集解决了历史角色扮演研究中数据碎片化与低资源的问题。传统的历史角色扮演研究往往受限于数据收集的高成本与历史材料的稀缺性,而BaiJia通过整合多种来源的历史信息,填补了这一空白。它不仅为LLMs提供了高质量的训练数据,还推动了历史角色扮演任务中模型的开发与评估,为相关领域的学术研究提供了坚实的基础。
实际应用
在实际应用中,BaiJia数据集被广泛用于历史教育、文化传播及虚拟角色扮演等领域。通过基于该数据集训练的LLMs,用户可以与历史人物进行沉浸式对话,深入了解其思想、行为及历史背景。这种应用不仅增强了历史学习的趣味性,还为文化传承提供了新的途径。此外,BaiJia还为虚拟角色扮演游戏提供了丰富的历史素材,提升了游戏的沉浸感与真实性。
数据集最近研究
最新研究方向
在历史角色扮演领域,BaiJia数据集作为首个大规模中文历史人物角色扮演语料库,填补了低资源数据在大型语言模型(LLMs)中的应用空白。该数据集整合了来自不同形式和模态的历史文本记录,涵盖人物的生平、文学作品、家庭关系、历史事件等多维度信息,为LLMs在历史角色扮演任务中的能力提升提供了坚实基础。当前研究热点聚焦于如何通过BaiJia数据集优化LLMs的角色扮演能力,特别是在历史背景下的对话生成和情感表达方面。该数据集的发布不仅推动了历史角色扮演任务的研究进展,还为LLMs在文化传承和教育领域的应用开辟了新路径。
相关研究论文
  • 1
    BaiJia: A Large Scale Role-Playing Agent Corpus of Chinese Historical Charcaters北京邮电大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录