BaiJia
收藏arXiv2025-01-06 更新2025-01-01 收录
下载链接:
https://github.com/BAI-LAB/BaiJia
下载链接
链接失效反馈官方服务:
资源简介:
BaiJia是一个由中国北京邮电大学创建的大规模历史角色扮演数据集,旨在为大语言模型提供低资源的历史角色扮演数据。该数据集包含19281个中国历史人物的信息,涵盖了唐、宋、元、明、清五个朝代。数据集的内容包括人物的传记、文学作品、家庭关系、历史事件等,数据来源广泛,包括历史文献、古籍、艺术作品、民间传说和口述传统。数据集的创建过程包括从多个来源收集人物简历、生成对话以及构建评估问题。该数据集的应用领域主要是增强大语言模型在历史角色扮演任务中的表现,旨在解决历史文本碎片化和多模态数据整合的挑战。
BaiJia is a large-scale historical role-playing dataset developed by Beijing University of Posts and Telecommunications (BUPT) in China, which aims to provide low-resource historical role-playing data for large language models (LLMs). This dataset contains information on 19,281 historical Chinese figures, covering the Tang, Song, Yuan, Ming and Qing dynasties. The dataset content includes biographies, literary works, family relationships, historical events and other relevant details of these figures. The data sources are extensive, covering historical documents, ancient books, artistic works, folklores and oral traditions. The dataset construction process includes collecting the biographical resumes of the figures from multiple sources, generating dialogues, and constructing evaluation questions. Its main application is to enhance the performance of large language models in historical role-playing tasks, aiming to solve the challenges of fragmented historical texts and multimodal data integration.
提供机构:
北京邮电大学
创建时间:
2024-12-28
搜集汇总
数据集介绍

构建方式
BaiJia数据集的构建过程分为三个主要步骤:首先,通过多源数据收集了19,281位中国历史人物的详细简历,涵盖唐、宋、元、明、清五个朝代。这些简历包括人物的生平、家庭关系、职业成就等信息。其次,基于这些简历,采用GPT-4o-mini模型生成与历史背景相符的对话场景,并通过LLaMA-Factory框架进行LoRA微调,使大语言模型具备角色扮演能力。最后,构建了用于评估角色扮演能力的问答数据集,确保模型能够准确理解并回应历史人物的背景与行为。
使用方法
BaiJia数据集的使用方法主要包括三个方面:首先,研究人员可以利用数据集中的历史人物简历信息,训练大语言模型以模拟历史人物的行为与对话。其次,通过生成的对话场景,模型可以进行角色扮演任务的微调,提升其在历史背景下的对话生成能力。最后,数据集提供的问答资源可用于评估模型在历史角色扮演任务中的表现,确保其生成的对话与历史背景一致。此外,BaiJia还提供了一个公开的评估基准,便于研究人员对比不同模型在历史角色扮演任务中的性能。
背景与挑战
背景概述
BaiJia数据集由北京邮电大学的Ting Bai、Jiazheng Kang和Jiayang Fan等研究人员于2024年推出,旨在为大规模语言模型(LLMs)提供低资源的历史角色扮演数据。该数据集涵盖了19,281位中国历史人物,跨越唐、宋、元、明、清五个朝代,整合了人物的传记、文学作品、家庭关系、历史事件等多维度信息。BaiJia的创建填补了历史角色扮演领域的数据空白,为LLMs在历史角色扮演任务中的能力提升提供了重要支持。该数据集不仅推动了LLMs在历史角色扮演中的发展,还为相关研究提供了评估基准。
当前挑战
BaiJia数据集在构建过程中面临多重挑战。首先,历史文本记录的碎片化和多样性使得数据整合变得复杂,尤其是不同形式的历史文献、古籍、艺术作品和口述传统的融合。其次,历史人物的信息分布不均,部分人物的详细资料稀缺,导致数据完整性和一致性的问题。此外,生成符合历史背景的对话场景也极具挑战,需要确保对话内容与历史人物的身份、时代背景和文化特征相符。这些挑战不仅影响了数据集的构建效率,也对LLMs在历史角色扮演任务中的表现提出了更高的要求。
常用场景
经典使用场景
BaiJia数据集在历史角色扮演领域具有广泛的应用,特别是在大语言模型(LLMs)的训练与评估中。通过整合大量中国历史人物的生平、文学作品、家族关系及历史事件等多维度信息,BaiJia为LLMs提供了丰富的背景知识,使其能够在模拟历史人物对话时表现出更高的准确性和一致性。该数据集在历史教育、文化传播及虚拟角色扮演等场景中展现了其独特的价值。
解决学术问题
BaiJia数据集解决了历史角色扮演研究中数据碎片化与低资源的问题。传统的历史角色扮演研究往往受限于数据收集的高成本与历史材料的稀缺性,而BaiJia通过整合多种来源的历史信息,填补了这一空白。它不仅为LLMs提供了高质量的训练数据,还推动了历史角色扮演任务中模型的开发与评估,为相关领域的学术研究提供了坚实的基础。
实际应用
在实际应用中,BaiJia数据集被广泛用于历史教育、文化传播及虚拟角色扮演等领域。通过基于该数据集训练的LLMs,用户可以与历史人物进行沉浸式对话,深入了解其思想、行为及历史背景。这种应用不仅增强了历史学习的趣味性,还为文化传承提供了新的途径。此外,BaiJia还为虚拟角色扮演游戏提供了丰富的历史素材,提升了游戏的沉浸感与真实性。
数据集最近研究
最新研究方向
在历史角色扮演领域,BaiJia数据集作为首个大规模中文历史人物角色扮演语料库,填补了低资源数据在大型语言模型(LLMs)中的应用空白。该数据集整合了来自不同形式和模态的历史文本记录,涵盖人物的生平、文学作品、家庭关系、历史事件等多维度信息,为LLMs在历史角色扮演任务中的能力提升提供了坚实基础。当前研究热点聚焦于如何通过BaiJia数据集优化LLMs的角色扮演能力,特别是在历史背景下的对话生成和情感表达方面。该数据集的发布不仅推动了历史角色扮演任务的研究进展,还为LLMs在文化传承和教育领域的应用开辟了新路径。
相关研究论文
- 1BaiJia: A Large Scale Role-Playing Agent Corpus of Chinese Historical Charcaters北京邮电大学 · 2024年
以上内容由遇见数据集搜集并总结生成



