fic-agent

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/t1eautomat/fic-agent

下载链接

链接失效反馈

官方服务：

资源简介：

fic-agent 是一个无需微调的检索增强型小说角色聊天机器人项目，旨在实现与源文本的事实一致性、角色真实语言风格和情感特征，以及世界观一致性（包括设定、规则和关系）。数据集包括原始小说文本、元数据、处理后的文本块、提取的对话、角色人物画像笔记和世界观记忆笔记。数据规模涵盖多个处理阶段，如文档块（chunks.jsonl）、对话（dialogues.jsonl）、角色画像（persona_*.json）、世界观笔记（worldview_notes.jsonl）以及向量索引（*.faiss 和 *.jsonl）。该数据集适用于构建和评估小说角色对话系统，支持事实检索、角色风格生成和世界观一致性检查等任务。项目还包含一个特定数据集场景实验（105_Persuasion），专注于两角色对话场景的生成与评估。

创建时间：

2026-02-09

原始信息汇总

fic-agent 数据集概述

数据集简介

fic-agent 是一个用于构建无需微调、基于检索增强的虚构角色聊天机器人的项目与相关数据集。其核心目标是确保与源文本的事实一致性、符合角色特征的语言风格与情感表达，以及世界观（设定、规则、关系）的一致性。

项目结构与数据内容

项目仓库包含以下主要目录，用于存储和处理数据：

configs/：运行时配置（API密钥、模型名称、标志）。
data/raw/：原始小说文本和元数据。
data/processed/：处理后的数据，包括分块文本、提取的对话和角色人物笔记。
data/indexes/：向量索引和图结构产物。
data/eval/：评估输入和参考数据。
outputs/：运行输出和日志。
scripts/：命令行工具和流水线脚本。
src/fic_agent/：核心库。

核心处理流水线

摄取原始文本。
提取角色对话及上下文。
构建角色画像（风格、情感、世界观）。
构建事实和世界观索引。
检索相关证据和角色画像。
使用基于角色画像的提示生成回复。
评估（事实、风格、世界观）。

主要输出文件

data/processed/chunks.jsonl：文档块。
data/processed/dialogues.jsonl：提取的对话及说话者推测。
data/processed/persona_*.json：每个角色的画像文件。
data/processed/worldview_notes.jsonl：世界观记忆笔记。
data/indexes/*.faiss 和 data/indexes/*.jsonl：向量索引及元数据。
outputs/qa/*.json：最终答案、循环追踪记录、合并的证据。
outputs/qa/*_eval.json：综合LLM评估报告（包含same_character、confidence_100和penalties等字段）。

评估方法

项目采用综合LLM评估器（v2版），结合了原著依据、角色实现、世界逻辑和回答有用性四个核心模块。每个子分数采用1-5分制。

评估输出包括：

scorecard.overall_100（按40/35/15/10加权）
same_character（Yes/No）
confidence_100（0-100）
issues.critical/major/minor
penalties 及每轮细分
向后兼容字段：scores.facts/persona/worldview/overall 和 confidence（0-1）

数据集场景实验（105_Persuasion）

项目包含针对 ficset/105_Persuasion 数据集的场景实验协议：

遍历所有 is_two_person_dialogue_scene=true 的场景。
使用所有先前场景作为RAG知识。
使用第一个说话者的发言作为查询输入。
要求模型以另一个角色的身份回答（复用现有的检索和元循环逻辑）。

实验输出位于：

outputs/experiments/<run_name>/summary.json：全局摘要和每个案例的状态。
outputs/experiments/<run_name>/cases.jsonl：每个案例的记录（行分隔）。
outputs/experiments/<run_name>/cases/<case_key>/qa_full.json：单个案例的问答结果。
outputs/experiments/<run_name>/cases/<case_key>/eval_full.json：评估结果（如启用）。

搜集汇总

数据集介绍

构建方式

在文学角色对话生成领域，fic-agent数据集通过系统化的文本处理流程构建而成。原始小说文本首先被导入并分割为可管理的片段，随后从中提取角色对话及其上下文信息。基于这些对话，系统为每个角色构建详细的人物档案，涵盖语言风格、情感特征及世界观。同时，建立事实与世界观索引，形成结构化的知识库，为后续的检索增强生成提供精准的证据支持。

使用方法

使用该数据集时，用户需准备原始小说文本并指定目标角色。通过运行预处理与索引构建脚本，系统将自动处理文本并创建必要的检索结构。随后，用户可输入针对特定角色的提问，系统会利用元认知问答循环检索相关证据与人物档案，生成符合角色特质的回答。生成结果可通过综合评估模块进行多维度评测，包括事实依据、角色实现度、世界逻辑与回答实用性，确保输出质量的可控性与可解释性。

背景与挑战

背景概述

在人工智能与自然语言处理领域，构建能够深度理解并模仿虚构作品中人物角色的对话系统，一直是推动叙事智能发展的核心议题。fic-agent数据集应运而生，其设计目标聚焦于实现无需微调、基于检索增强的虚构角色聊天机器人。该数据集由相关研究团队构建，旨在系统性地解决角色对话生成中的三大关键问题：与原文的事实一致性、符合角色语言风格与情感特征的真实性，以及世界观设定、规则与关系的连贯性。通过整合原始小说文本、元数据及处理后的对话片段、人物档案，该数据集为探索基于检索增强生成技术的人物角色建模提供了结构化基础，对推进开放域对话系统与叙事计算研究具有显著影响力。

当前挑战

fic-agent数据集致力于应对虚构角色对话生成领域的核心挑战，即如何在无需微调的前提下，确保生成内容与源文本在事实细节、时间线及事件逻辑上保持高度一致，同时精准捕捉并复现特定角色的语言风格、情感表达与动机取向。在构建过程中，挑战主要集中于从非结构化的原始小说文本中自动化提取高质量对话数据并准确关联说话者身份，以及构建能够有效表征角色特质与世界观知识的结构化索引。这些技术难点直接关系到系统在复杂叙事语境下生成可信且连贯角色回复的能力，对信息检索与自然语言生成模型的协同设计提出了更高要求。

常用场景

经典使用场景

在虚构文学角色对话生成领域，fic-agent数据集为构建无需微调的检索增强型角色聊天机器人提供了核心支持。该数据集通过提取原始小说文本中的对话与上下文，构建角色人物画像，并建立事实与世界观索引，使得模型能够在生成回复时检索相关证据与角色特征，确保输出符合原著事实、角色语言风格及世界观一致性。经典使用场景包括基于《化身博士》等小说，模拟特定角色如Utterson进行问答交互，以验证角色真实性与叙事连贯性。

解决学术问题

该数据集主要解决了虚构角色对话生成中事实一致性、角色风格保持与世界观逻辑统一等关键学术问题。通过结构化提取对话、人物画像与世界观笔记，并引入综合评估模块，它推动了检索增强生成技术在文学角色建模中的应用，为评估生成文本的忠实度、角色还原度与叙事合理性提供了可量化的基准，促进了自然语言处理在创意写作与叙事计算领域的理论发展。

实际应用

在实际应用中，fic-agent数据集可用于开发智能文学助手、互动叙事系统与角色扮演教育工具。例如，在文学教学场景中，学生可通过与小说角色对话深入理解人物动机与情节发展；在游戏或虚拟现实中，该技术能生成符合角色设定的动态对话，增强沉浸式体验。此外，数据集支持批量场景实验，如基于《劝导》等小说的对话场景重构，为自动化内容创作与个性化叙事生成提供实践基础。

数据集最近研究