Bandori_Conversational_Benchmark_Action_Sequences

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/KomeijiForce/Bandori_Conversational_Benchmark_Action_Sequences

下载链接

链接失效反馈

官方服务：

资源简介：

Codified Decision Trees (CDT) 是一个框架，用于从叙事数据中生成可执行且可解释的角色扮演（RP）代理行为配置文件。该数据集包含从多样化故事线中提取的场景-动作对，用于构建和验证这些行为表示。数据集包括85个角色在16个叙事作品中的动作序列。数据字段包括：artifact（源故事线或媒体作品）、title（具体场景或章节的标题）、action（角色的行为或陈述）、characters（场景中涉及的角色列表）。

创建时间：

2026-01-16

原始信息汇总

数据集概述

基本信息

数据集名称: Codified Decision Tree (CDT) Dataset
发布平台: Hugging Face
数据集地址: https://huggingface.co/datasets/KomeijiForce/Bandori_Conversational_Benchmark_Action_Sequences
相关论文: https://huggingface.co/papers/2601.10080
GitHub仓库: https://github.com/KomeijiForce/Codified_Decision_Tree
主要语言: 英语 (en)
核心任务: 文本生成 (text-generation)
相关标签: 角色扮演 (role-playing), 角色逻辑 (character-logic), 决策树 (decision-trees)

数据集简介

Codified Decision Trees (CDT) 是一个框架，用于从叙事数据中为角色扮演 (RP) 智能体归纳出可执行且可解释的行为画像。本数据集包含从多样化故事线中提取的场景-动作对，用于构建和验证这些行为表示。

数据集结构

数据特征

数据包含以下字段：

artifact: 源故事线或媒体作品。
title: 特定场景或章节的标题。
action: 角色做出的行为或陈述。
characters: 场景中涉及的角色列表。

数据规模与划分

唯一数据划分: train
训练集样本数量: 9721
训练集大小: 1140181 字节
下载大小: 443352 字节
数据集总大小: 1140181 字节

内容范围

角色数量: 85 个角色
叙事作品数量: 16 个

数据集用途

构建Codified Decision Tree (CDT)

对于论文实验中涉及的角色，可使用提供的脚本构建行为画像树。

Python API

可通过初始化 CDT_Node 来构建角色逻辑树，并获取特定场景的接地陈述。

引用信息

bibtex @article{codified_profile, title={Codifying Character Logic in Role-Playing}, author={Letian Peng, Kun Zhou, Longfei Yun, Yupeng Hou, and Jingbo Shang}, journal={arXiv preprint arXiv:2601.10080}, year={2026} }

搜集汇总

数据集介绍

构建方式

在角色扮演智能体研究领域，为克服非结构化行为描述导致的脆弱性，该数据集通过提取多样化叙事文本中的场景-动作对构建而成。具体而言，研究团队从十六部叙事作品中，为八十五个角色系统地抽取了场景标题、行为陈述及参与角色列表，形成结构化的序列数据。这些数据作为基础，用于诱导可执行且可解释的行为规则树，其中内部节点对应已验证的场景条件，叶节点编码具体的行为陈述，从而实现了从叙事数据到形式化行为表征的转化。

特点

本数据集的核心特点在于其紧密服务于可解释角色扮演智能体的开发，提供了高度结构化的场景-动作映射关系。数据字段清晰定义了叙事来源、场景标题、具体行为及角色列表，确保了信息的完整性与可追溯性。其设计旨在支持构建决策树形式的行为档案，使得智能体能够在运行时根据上下文确定性地检索恰当的行为规则，显著提升了角色行为的逻辑一致性与可解释性，为叙事驱动的人工智能研究提供了宝贵的基准资源。

使用方法

利用该数据集，研究者可通过提供的脚本或Python API构建特定角色的编码决策树。使用脚本时，需指定目标角色、推理引擎及各项决策阈值参数，以自动化生成行为逻辑树。通过Python接口，则可直接初始化决策树节点，并利用`traverse`方法为给定场景获取具体的行为依据。这种方法使得将叙事数据转化为可执行的角色逻辑变得直接而高效，为开发具有稳定、可解释行为的角色扮演智能体提供了实践框架。

背景与挑战

背景概述

在角色扮演智能体研究领域，传统方法常依赖非结构化的角色设定，导致智能体行为表现脆弱且难以预测。为应对这一挑战，由Letian Peng、Kun Zhou等研究人员于2026年提出的Codified Decision Trees框架，旨在从叙事数据中推导出可执行且可解释的行为轮廓。该框架将行为轮廓表示为条件规则树，其中内部节点对应经过验证的场景条件，叶节点编码具体的行为陈述，从而在推理时实现确定性规则检索。Bandori_Conversational_Benchmark_Action_Sequences数据集作为该框架的核心数据基础，包含了从16个叙事作品中提取的85个角色的场景-动作序列，为构建和验证角色行为表征提供了结构化数据支持，推动了角色扮演智能体向更具鲁棒性和可解释性的方向发展。

当前挑战

该数据集致力于解决角色扮演智能体领域中的核心挑战，即如何从复杂的叙事数据中抽象出稳定、一致且符合角色逻辑的行为模式。具体而言，挑战体现在两个方面：首先，在领域问题层面，角色扮演智能体需要克服行为生成的脆弱性，确保在不同叙事上下文中行为响应既符合角色设定又保持逻辑连贯，这要求模型能够精准理解并编码角色特质与场景动态之间的复杂关联。其次，在数据构建过程中，研究人员面临从多源、异构的叙事文本中提取高质量场景-动作对的困难，包括处理叙事模糊性、确保角色行为标注的一致性，以及平衡数据覆盖广度与深度，以构建能够全面反映角色行为逻辑的规则树。

常用场景

经典使用场景

在角色扮演智能体研究领域，Bandori_Conversational_Benchmark_Action_Sequences数据集为构建可执行且可解释的行为档案提供了关键支撑。该数据集通过从多样化的叙事素材中提取场景-动作对，使研究者能够训练模型生成基于条件规则的决策树，从而模拟角色在特定情境下的连贯行为。这一过程不仅强化了智能体在对话中的逻辑一致性，也为评估其行为合理性设立了基准。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在可解释角色逻辑的算法创新上。例如，研究者利用其场景-动作对训练层次化决策模型，以提升行为预测的准确性。同时，该数据集也促进了基于规则检索的对话系统优化，许多后续研究通过扩展条件规则集或引入多模态输入，进一步增强了智能体的情境适应能力。这些工作共同推动了角色扮演智能体从黑箱模型向透明化架构的演进。

数据集最近研究