five

kabang-knowledge

收藏
github2026-04-21 更新2026-04-22 收录
下载链接:
https://github.com/kekmodel/kabang-knowledge
下载链接
链接失效反馈
官方服务:
资源简介:
KakaoBank公开文档语料库和手动编写的tau3风格银行知识任务。该数据集包含27个KakaoBank产品的结构化知识文档、手动提取的审核事实以及手动编写的任务场景,旨在构建韩国银行知识基准。

KakaoBank Public Document Corpus and Manually Written Tau3-Style Banking Knowledge Tasks. This dataset encompasses structured knowledge documents for 27 KakaoBank products, manually extracted audit facts, and manually developed task scenarios, aiming to establish a Korean banking knowledge benchmark.
创建时间:
2026-04-21
原始信息汇总

kabang-knowledge 数据集概述

数据集简介

该数据集旨在构建一个受 tau3/tau2 中 banking_knowledge 领域启发的韩语银行知识基准。其核心是基于公开可访问的 KakaoBank 产品、政策、常见问题解答和条款文档,构建结构化的知识文档和手动编写的任务场景。

数据集构成

数据来源

  • 来源材料:基于公开可访问的 KakaoBank 产品、政策、常见问题解答和条款文档。
  • 精选产品:27 个 KakaoBank 产品。

核心数据资产

  1. 结构化知识文档:207 个 tau3 风格的 id/title/content JSON 文档。
  2. 手动编写任务:207 个任务 JSON 文件。
  3. tau2 v0 任务导出:123 个 DB-delta 候选任务 JSON 文件(跳过了 4 个未来用户工具任务和 80 个非 DB-delta 任务)。
  4. 手动审查文档:207 个任务级别的审查文档。
  5. 产品覆盖审计:27 个产品级别的覆盖审计。

关键文件路径

  • data/markdown/selected27_bundles_clean/:27 个精选产品的清理后 Markdown 文档包。
  • data/structured/kakaobank_fact_db_v0.json:已审查的事实数据库。
  • data/structured/kakaobank_tau3_documents_v0/:导出的 tau3 风格知识文档及索引。
  • data/tasks/kakaobank_manual_v0/:手动编写的任务 JSON 文件。
  • data/tau2/domains/kakaobank_knowledge/:v0 tau2 风格的候选任务导出,包含用户提示、每任务初始化数据、仅 DB 的奖励依据以及一个空的域 db.json
  • data/tasks/kakaobank_manual_v0_reviews/:每个任务的人工可读审查笔记。
  • data/tasks/kakaobank_manual_v0_product_audits/:产品级别的覆盖审计。
  • data/schema/kakaobank_action_verifier_state_v0.json:状态/动作/验证器设计模式。

当前状态

  • 任务集性质:当前任务集是已审查的设计产物,尚不是一个完全可执行的 tau3/tau2 领域。
  • 运行时域:部分 v0 运行时:空的 db.json、确定性的读写工具重放、仅 DB 的评估器,以及针对 123 个 DB-delta 任务的 OpenAI 兼容助手运行器。
  • 检索支持:支持对 207 个导出知识文档进行 tau3 风格的离线 bm25grepbm25_grep 配置检索。
  • 用户模拟器:此 v0 路径中不包含用户模拟器。

设计理念

遵循原始 tau3 banking_knowledge 理念:

  • 知识文档和事务状态是分离的。
  • required_documents 是预言机元数据,而非普通的面向用户的提示。
  • 任务应要求策略检索加上隐藏状态推理。
  • 通过具体操作、用户工具、验证器断言以及最终的数据库重放来评估成功,而不仅仅是看似合理的自然语言答案。
  • 排除不支持或无法验证的声明,而非强行纳入任务。

使用与验证

环境设置

bash uv sync --extra dev

主要操作命令

  1. 验证当前制品: bash uv run pytest -q uv run ruff check . uv run ruff format --check .

  2. 构建精选产品包目录: bash uv run tau3-bank-hackathon build-bundle-catalog --bundle-root data/markdown/selected27_bundles_clean --output data/structured/kakaobank_bundle_catalog.json

  3. 构建已审查事实数据库和 tau3 风格文档: bash uv run tau3-bank-hackathon build-fact-db-v0

  4. 导出 v0 tau2 风格任务: bash uv run tau3-bank-hackathon export-kakaobank-tau2-tasks --mode v0

  5. 构建空的运行时数据库夹具: bash uv run tau3-bank-hackathon build-kakaobank-runtime-db

  6. 确定性地重放所有导出的 DB-delta 任务: bash uv run tau3-bank-hackathon replay-kakaobank-tasks

  7. 评估单个任务捕获的助手工具调用: bash uv run tau3-bank-hackathon evaluate-kakaobank-actions --task-id kb_manual_demand_deposit_clean_close_success --actions-json candidate_actions.json

  8. 通过 OpenAI API、vLLM、SGLang 或其他 OpenAI 兼容的助手端点运行单个任务: bash uv run tau3-bank-hackathon run-kakaobank-task --task-id kb_manual_demand_deposit_clean_close_success --model served-model --endpoint http://localhost:8000/v1 --retrieval-config bm25_grep

  9. 针对同一助手端点运行 123 个任务的 v0 集: bash uv run tau3-bank-hackathon run-kakaobank-tasks --model served-model --endpoint http://localhost:8000/v1 --retrieval-config bm25_grep --output-json runs/kakaobank_v0_results.json

运行配置说明

  • --endpoint:可以是完整的 /chat/completions URL 或 OpenAI 风格的 /v1 基础 URL。
  • OPENAI_API_KEY:存在时会被使用,但不需要身份验证的本地兼容服务器无需此密钥也可工作。
  • --retrieval-config:默认为 bm25_grep,也支持 bm25grep;v0 版本有意排除了文本嵌入和终端使用变体。
  • 检索比较:bm25grep 搜索与终端使用所见相同的每文档 Markdown 表面(# title 加上文档内容)。知识块文档 ID 在无冲突检查后保持人类可读,无仅哈希后缀。

后续工作方向

  1. 添加 kakaobank_knowledge 可执行域骨架。
  2. 在当前 v0 重放表面之外,强化确定性助手工具。
  3. 使用 OpenAI API、vLLM 和 SGLang 端点运行试点验证。
  4. 为 4 个保留的用户工具任务添加未来支持。
  5. 将 v0 运行器打包为更完整的 tau2 兼容可执行域。
搜集汇总
数据集介绍
main_image_url
构建方式
在金融科技领域,构建高质量的领域知识基准测试集对于评估智能系统的专业能力至关重要。kabang-knowledge数据集的构建过程体现了严谨的学术规范,其核心材料来源于KakaoBank公开的产品文档、政策条款及常见问题解答。研究团队首先筛选了27个具有代表性的银行产品,将原始的公开文档进行清洗与整理,转化为结构化的知识单元。随后,通过人工审阅的方式从这些材料中提取关键事实,并精心设计了包含隐藏状态、预期操作及验证断言的测试任务场景。最终,这些任务被转化为与tau3/tau2框架兼容的结构化JSON格式,形成了一个包含207个知识文档和207个手动编写任务的初始集合,为后续可执行的基准测试域奠定了坚实基础。
使用方法
为有效利用该数据集进行模型评估与研究,使用者需遵循其提供的工具链。通过命令行工具,可以验证数据资产、构建产品目录、导出任务集以及初始化运行时数据库。核心的评估流程允许用户针对单个任务或整个任务集,连接至OpenAI兼容的聊天补全端点(如vLLM或SGLang服务器),并配置特定的检索策略来运行测试。运行过程会模拟助手调用工具链,并依据最终数据库状态的哈希值是否与预期一致来判定任务成功。数据集当前版本专注于数据库状态变化的评估,暂未集成用户模拟器,为研究者在可控环境下测试模型的工具使用与知识推理能力提供了标准化平台。
背景与挑战
背景概述
在金融科技与自然语言处理交叉领域,韩国数字银行服务的普及催生了面向专业领域的知识基准需求。kabang-knowledge数据集作为一项独立研究项目,其创建灵感源于tau3/tau2框架中的银行知识领域,旨在构建一个针对KakaoBank公开文档的韩语银行知识评估基准。该数据集由研究团队基于KakaoBank公开的产品、政策、常见问题及条款文档,通过人工提取与结构化处理,形成了包含207份知识文档与对应任务的设计成果。其核心研究问题聚焦于如何通过可验证的行动与状态推理,评估智能体在复杂银行业务场景下的知识检索与决策能力,为金融领域的对话系统与知识推理研究提供了重要的实证基础。
当前挑战
该数据集致力于解决银行知识推理领域的核心挑战,即如何让智能体在隐藏状态与复杂策略约束下,通过检索结构化知识执行准确且可验证的业务操作。构建过程中的主要挑战包括:从非结构化的公开银行文档中人工提取并验证关键事实,确保知识的一致性与权威性;设计涵盖27种银行产品的多样化任务场景,需平衡业务覆盖度与任务复杂性;将人工撰写的任务转化为可执行的tau2/tau3兼容格式,并确保工具调用与状态变更的确定性回放;此外,在缺乏用户模拟器的情况下,构建仅依赖数据库状态变更的评估机制,亦对任务设计与运行时实现提出了较高要求。
常用场景
经典使用场景
在金融科技与自然语言处理交叉领域,kabang-knowledge数据集常被用于评估智能助手在银行知识检索与推理任务中的性能。该数据集通过结构化呈现KakaoBank公开文档中的产品政策与条款,构建了包含隐藏状态与预期动作的精细化任务场景,为研究者提供了模拟真实银行咨询流程的基准测试环境。其经典应用体现在对智能体进行端到端评估,要求系统不仅需准确检索相关文档,还需基于检索内容执行符合业务逻辑的具体操作,从而全面检验模型在复杂金融语境下的理解与执行能力。
解决学术问题
该数据集有效应对了金融领域知识密集型任务中缺乏高质量、可验证基准的学术挑战。通过提供手动标注的银行知识任务与结构化事实数据库,它使得研究者能够系统评估模型在政策检索、状态推理及动作执行等方面的综合能力。其意义在于推动了可解释性金融智能体的发展,为衡量模型在真实业务场景下的可靠性提供了标准化框架,进而促进了金融自然语言处理技术向更高精度与实用性的演进。
实际应用
在实际应用层面,kabang-knowledge数据集为银行与金融科技公司开发智能客服与自动化业务处理系统提供了关键支撑。基于该数据集训练的模型能够准确理解用户关于产品条款、费率政策及账户操作的复杂查询,并生成符合业务规范的响应或执行相应事务。这不仅提升了金融服务效率与用户体验,也为合规性检查与风险控制提供了自动化工具,助力金融机构实现智能化运营与服务升级。
数据集最近研究
最新研究方向
在金融科技领域,知识密集型任务评估正成为大语言模型能力验证的关键前沿。kabang-knowledge数据集基于韩国KakaoBank公开文档构建,专注于银行知识问答与决策推理的基准测试。该数据集将27种银行产品转化为结构化知识文档,并手工设计了207个任务场景,强调隐藏状态推理与可验证行动执行,而非单纯的自然语言生成。其最新研究方向聚焦于开发可执行的tau3/tau2兼容领域,通过确定性工具回放与数据库状态比对,实现对大语言模型在复杂银行业务场景下的精准评估。这一进展呼应了当前行业对模型可靠性验证的迫切需求,为金融领域安全可信的AI应用提供了重要的基准框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作