kabang-knowledge
收藏kabang-knowledge 数据集概述
数据集简介
该数据集旨在构建一个受 tau3/tau2 中 banking_knowledge 领域启发的韩语银行知识基准。其核心是基于公开可访问的 KakaoBank 产品、政策、常见问题解答和条款文档,构建结构化的知识文档和手动编写的任务场景。
数据集构成
数据来源
- 来源材料:基于公开可访问的 KakaoBank 产品、政策、常见问题解答和条款文档。
- 精选产品:27 个 KakaoBank 产品。
核心数据资产
- 结构化知识文档:207 个 tau3 风格的
id/title/contentJSON 文档。 - 手动编写任务:207 个任务 JSON 文件。
- tau2 v0 任务导出:123 个 DB-delta 候选任务 JSON 文件(跳过了 4 个未来用户工具任务和 80 个非 DB-delta 任务)。
- 手动审查文档:207 个任务级别的审查文档。
- 产品覆盖审计:27 个产品级别的覆盖审计。
关键文件路径
data/markdown/selected27_bundles_clean/:27 个精选产品的清理后 Markdown 文档包。data/structured/kakaobank_fact_db_v0.json:已审查的事实数据库。data/structured/kakaobank_tau3_documents_v0/:导出的 tau3 风格知识文档及索引。data/tasks/kakaobank_manual_v0/:手动编写的任务 JSON 文件。data/tau2/domains/kakaobank_knowledge/:v0 tau2 风格的候选任务导出,包含用户提示、每任务初始化数据、仅 DB 的奖励依据以及一个空的域db.json。data/tasks/kakaobank_manual_v0_reviews/:每个任务的人工可读审查笔记。data/tasks/kakaobank_manual_v0_product_audits/:产品级别的覆盖审计。data/schema/kakaobank_action_verifier_state_v0.json:状态/动作/验证器设计模式。
当前状态
- 任务集性质:当前任务集是已审查的设计产物,尚不是一个完全可执行的 tau3/tau2 领域。
- 运行时域:部分 v0 运行时:空的
db.json、确定性的读写工具重放、仅 DB 的评估器,以及针对 123 个 DB-delta 任务的 OpenAI 兼容助手运行器。 - 检索支持:支持对 207 个导出知识文档进行 tau3 风格的离线
bm25、grep和bm25_grep配置检索。 - 用户模拟器:此 v0 路径中不包含用户模拟器。
设计理念
遵循原始 tau3 banking_knowledge 理念:
- 知识文档和事务状态是分离的。
required_documents是预言机元数据,而非普通的面向用户的提示。- 任务应要求策略检索加上隐藏状态推理。
- 通过具体操作、用户工具、验证器断言以及最终的数据库重放来评估成功,而不仅仅是看似合理的自然语言答案。
- 排除不支持或无法验证的声明,而非强行纳入任务。
使用与验证
环境设置
bash uv sync --extra dev
主要操作命令
-
验证当前制品: bash uv run pytest -q uv run ruff check . uv run ruff format --check .
-
构建精选产品包目录: bash uv run tau3-bank-hackathon build-bundle-catalog --bundle-root data/markdown/selected27_bundles_clean --output data/structured/kakaobank_bundle_catalog.json
-
构建已审查事实数据库和 tau3 风格文档: bash uv run tau3-bank-hackathon build-fact-db-v0
-
导出 v0 tau2 风格任务: bash uv run tau3-bank-hackathon export-kakaobank-tau2-tasks --mode v0
-
构建空的运行时数据库夹具: bash uv run tau3-bank-hackathon build-kakaobank-runtime-db
-
确定性地重放所有导出的 DB-delta 任务: bash uv run tau3-bank-hackathon replay-kakaobank-tasks
-
评估单个任务捕获的助手工具调用: bash uv run tau3-bank-hackathon evaluate-kakaobank-actions --task-id kb_manual_demand_deposit_clean_close_success --actions-json candidate_actions.json
-
通过 OpenAI API、vLLM、SGLang 或其他 OpenAI 兼容的助手端点运行单个任务: bash uv run tau3-bank-hackathon run-kakaobank-task --task-id kb_manual_demand_deposit_clean_close_success --model served-model --endpoint http://localhost:8000/v1 --retrieval-config bm25_grep
-
针对同一助手端点运行 123 个任务的 v0 集: bash uv run tau3-bank-hackathon run-kakaobank-tasks --model served-model --endpoint http://localhost:8000/v1 --retrieval-config bm25_grep --output-json runs/kakaobank_v0_results.json
运行配置说明
--endpoint:可以是完整的/chat/completionsURL 或 OpenAI 风格的/v1基础 URL。OPENAI_API_KEY:存在时会被使用,但不需要身份验证的本地兼容服务器无需此密钥也可工作。--retrieval-config:默认为bm25_grep,也支持bm25和grep;v0 版本有意排除了文本嵌入和终端使用变体。- 检索比较:
bm25和grep搜索与终端使用所见相同的每文档 Markdown 表面(# title加上文档内容)。知识块文档 ID 在无冲突检查后保持人类可读,无仅哈希后缀。
后续工作方向
- 添加
kakaobank_knowledge可执行域骨架。 - 在当前 v0 重放表面之外,强化确定性助手工具。
- 使用 OpenAI API、vLLM 和 SGLang 端点运行试点验证。
- 为 4 个保留的用户工具任务添加未来支持。
- 将 v0 运行器打包为更完整的 tau2 兼容可执行域。




