BEHAVIORCHAIN
收藏arXiv2025-02-20 更新2025-02-22 收录
下载链接:
https://github.com/OL1RU1/BehaviorChain
下载链接
链接失效反馈官方服务:
资源简介:
BEHAVIORCHAIN是由北京大学等机构创建的高质量、多样化的人格化行为链数据集,包含101个独立人物的行为链,共15846个独立行为。数据集通过从小说和传记文学中自动提取行为链构建而成,旨在为研究连续人类行为提供有价值的模拟环境。该数据集适用于评估大型语言模型模拟连续人类行为的能力,特别是在动态场景下的行为预测和生成任务。
BEHAVIORCHAIN is a high-quality, diverse personalized behavior chain dataset created by Peking University and other institutions, which includes behavior chains of 101 distinct individuals with a total of 15,846 independent behaviors. The dataset is constructed by automatically extracting behavior chains from novels and biographical literature, aiming to provide a valuable simulation environment for research on continuous human behavior. This dataset is suitable for evaluating the ability of large language models (LLMs) to simulate continuous human behavior, particularly for behavior prediction and generation tasks in dynamic scenarios.
提供机构:
北京大学, 香港理工大学, 复旦大学, 北京航空航天大学
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
BEHAVIORCHAIN 数据集的构建基于从文学作品(如小说和传记)中自动提取的人物行为链。首先,从连续章节中提取主要角色的行为,确保行为的连续性和一致性。接着,通过逐段分析提取行为和相应的上下文,同时生成三个与原始行为在个性上明显不同的干扰项。为确保数据质量,招募了英语母语的大学生进行人工检查,评估每个行为的意义和上下文之间的逻辑连贯性。
特点
BEHAVIORCHAIN 数据集包含 1,001 个高质量、基于人物的行为链,总计 15,846 个独特的行为,每个行为链包含 10-20 个上下文-行为节点。每个角色都附带详细的个人资料和历史元数据。数据集的特点在于其多样性、高质量,以及基于文学作品的独特性,为研究连续的人类行为提供了宝贵的模拟环境。
使用方法
BEHAVIORCHAIN 数据集用于评估语言模型模拟连续人类行为的能力。通过将角色元数据集成到语言模型中,并挑战它们在 BEHAVIORCHAIN 提供的动态场景中逐步识别或生成上下文相关的行为,进行评估。数据集提供了两种任务:多选题行为预测任务,评估识别能力;开放式生成任务,评估行为合成能力。使用该数据集时,需要将角色元数据输入到语言模型中,并根据提供的上下文和角色信息生成或识别行为。
背景与挑战
背景概述
随着大型语言模型(LLMs)在人工智能领域的迅速发展,其作为人类数字替身的潜力日益受到关注。这些虚拟代理旨在复制个体,并能够自主执行决策、问题解决和推理等任务。然而,现有的LLMs评估主要集中在对话模拟上,而忽略了人类行为模拟,这对于数字替身至关重要。为了填补这一空白,研究人员引入了BEHAVIORCHAIN,这是第一个用于评估LLMs模拟连续人类行为的基准。BEHAVIORCHAIN包含多样、高质量的基于角色的行为链,总计15846个独特行为,涵盖1001个独特角色,每个角色都拥有详细的背景和配置文件元数据。该基准通过将角色元数据集成到LLMs中,并使用它们在BEHAVIORCHAIN提供的动态场景中迭代推断上下文相关的行为来进行评估。全面评估结果表明,即使是先进的模型也很难准确地模拟连续的人类行为。
当前挑战
BEHAVIORCHAIN面临的主要挑战包括:1) 准确模拟人类行为的挑战,即使是像GPT-4这样的先进模型,准确率也低于60%;2) LLMs在模拟非关键行为方面不如模拟关键行为;3) 在行为链完成过程中,初始错误会累积并降低后续预测的准确性,形成雪球效应。此外,BEHAVIORCHAIN目前主要关注英语语言的西方文学,缺乏对非西方文化规范和行为表达的代表,这在一定程度上限制了其在全球数字替身部署中的应用。
常用场景
经典使用场景
BEHAVIORCHAIN数据集被设计用来评估大型语言模型(LLMs)模拟连续人类行为的能力。它包含从文学作品自动提取的1,001个基于角色的行为链,总计15,846个不同的行为,每个角色都拥有详细的背景和档案元数据。通过将角色元数据集成到LLMs中,并利用它们在BEHAVIORCHAIN提供的动态场景中迭代地推断出情境适当的行为,该数据集提供了一个评估LLMs模拟人类行为能力的框架。BEHAVIORCHAIN在多个选择和生成任务中对十种最先进的LLMs进行了全面评估,结果显示即使是最先进的模型在模拟连续的人类行为方面也面临着重大挑战。
实际应用
BEHAVIORCHAIN数据集的实际应用场景包括虚拟现实中的化身、人工智能辅助的心理治疗、个性化服务和教育等。通过模拟连续的人类行为,BEHAVIORCHAIN可以用于创建更逼真和个性化的虚拟角色,用于游戏、电影和教育等领域。此外,该数据集还可以用于评估LLMs在模拟特定角色或情境下的行为的能力,从而为开发更智能和自适应的AI系统提供支持。
衍生相关工作
BEHAVIORCHAIN数据集的推出促进了LLMs在模拟人类行为方面的发展。该数据集的评估结果揭示了LLMs在模拟连续人类行为方面的挑战,为未来的研究提供了方向。此外,BEHAVIORCHAIN还启发了其他相关的研究,例如模拟社会动态、预测人类行为和开发基于LLMs的数字双胞胎。这些研究有助于推动人工智能技术的发展,并使其在各个领域得到更广泛的应用。
以上内容由遇见数据集搜集并总结生成



