BAZIQA-BENCHMARK
收藏arXiv2026-02-13 更新2026-02-17 收录
下载链接:
https://github.com/ChenJiangxi/BaziQA
下载链接
链接失效反馈官方服务:
资源简介:
BAZIQA-BENCHMARK是由上海交通大学与上海指南信息技术联合构建的专业级八字命理推理评测基准,包含200道来自2021-2025年全球算命师竞赛的多项选择题。数据集涵盖婚姻、职业、健康等七大应用领域,每道题目均基于预计算的标准化命盘结构,要求模型进行符号推理与时间条件组合分析。数据通过竞赛组委会专业筛选并匿名化处理,旨在评估大语言模型在非标准符号系统下的结构化推理能力,为玄学与传统文化领域的AI研究提供可复现的量化基准。
BAZIQA-BENCHMARK is a professional Bazi numerology reasoning evaluation benchmark co-developed by Shanghai Jiao Tong University and Shanghai Zhinan Information Technology. It contains 200 multiple-choice questions from the 2021-2025 Global Fortune-Telling Competition. The dataset covers seven application domains including marriage, career, health and others. Each question is based on a pre-calculated standardized natal chart structure, requiring the model to conduct symbolic reasoning and temporal conditional combinatorial analysis. The data has been professionally screened and anonymized by the competition organizing committee. This benchmark aims to evaluate the structured reasoning capability of large language models (LLMs) under non-standard symbolic systems, and provide a reproducible quantitative benchmark for AI research in the fields of metaphysics and traditional culture.
提供机构:
上海交通大学; 上海指南信息技术
创建时间:
2026-02-13
搜集汇总
数据集介绍
构建方式
在构建BAZIQA-BENCHMARK数据集时,研究团队从2021年至2025年全球八字命理竞赛中精心选取了200道专业多选题作为基础素材。为确保评估的客观性与可复现性,数据集采用了标准化的输入构建流程:首先为每个案例提供匿名的出生信息,随后通过外部八字排盘程序生成结构化的命盘,包括天干地支、十神关系、大运流年等核心要素,并以统一的文本模板呈现。这种设计将符号推理与历法转换过程解耦,使所有模型在完全相同的符号输入下进行多轮问答评估,从而实现了跨模型、跨年份的受控比较。
特点
该数据集的核心特点在于其深度整合了符号推理与时间组合性推理的双重挑战。每个问题均基于固定的八字命盘,要求模型在静态符号关系与动态时间层(如大运、流年)的交互中进行结构化推断。数据集覆盖婚姻、事业、健康、财富、性格、家庭关系及年度运势等多个现实应用领域,题目难度呈现递进趋势,从基础命盘解读延伸到多因素与时间组合推理。此外,所有问题均为四选一客观题,配有官方标准答案,避免了开放式评估中常见的主观评判偏差,为大型语言模型的符号推理能力提供了精确、可量化的测评基准。
使用方法
使用BAZIQA-BENCHMARK进行评估时,通常遵循多轮对话协议:模型首先接收格式化命盘上下文,随后在同一个会话中依次回答与该命盘相关的五个问题。这种设置模拟了实际推理场景中基于同一信息源进行多次判断的过程。为进一步探究模型的推理行为,研究者可引入结构化推理协议作为评估支架,该协议将推理过程约束为定量扫描、严重性分级和事件映射三个有序步骤,但不引入额外领域知识。评估时无需进行任务特定的微调,主要计算模型在全部问题上的宏观平均准确率,并分析其在不同年份、领域及推理协议下的性能变化与失败模式。
背景与挑战
背景概述
BAZIQA-BENCHMARK 是由上海交通大学与上海知南信息技术有限公司的研究团队于2026年发布的标准化评估基准,旨在系统评估大语言模型在符号推理与时间组合推理方面的能力。该基准源自2021至2025年全球八字命理竞赛中精心筛选的200道专业多选题,每个问题均要求模型在固定的八字命盘符号结构与交互时间条件下进行结构化推理。相较于以往依赖轶事或提示驱动的评估方式,该数据集通过提供预计算且格式统一的命盘上下文,实现了跨年份、跨领域与跨模型家族的客观评分与可控比较,为研究非标准符号系统中的推理行为提供了严谨的实验平台。
当前挑战
BAZIQA-BENCHMARK 核心挑战在于评估大语言模型处理具有复杂时间组合与符号交互的推理任务。具体而言,模型需在静态命盘符号与动态时间层级(如大运、流年)的多重约束下,完成主导信号的识别、交互优先级排序及符号到具体事件的映射,这对模型的时序推理与符号操作能力提出了较高要求。在构建过程中,研究团队面临如何将专业八字推理转化为可重复、可客观评分的机器学习任务的挑战,包括从原始出生信息到标准化命盘表示的转换、多轮对话评估协议的设计,以及在不引入额外领域知识的前提下构建结构化推理协议以约束推理顺序,确保评估的公平性与可复现性。
常用场景
经典使用场景
在大型语言模型评估领域,BAZIQA-BENCHMARK 提供了一个标准化的测试平台,专门用于评估模型在结构化符号推理和时序组合推理方面的能力。该数据集源自全球八字预测竞赛(2021-2025)中精心筛选的200道多项选择题,每个问题都要求模型基于固定的八字命盘和交互的时序条件进行结构化推断。其经典使用场景在于,研究者能够利用这一基准,在统一的多轮对话设置下,客观比较不同模型家族、不同年份竞赛题目以及不同推理协议下的性能表现,从而深入探究模型在非标准符号系统中的推理行为。
实际应用
在实际应用层面,BAZIQA-BENCHMARK 的构建理念与方法可推广至其他需要结构化推理的领域,例如法律条文分析、医疗诊断辅助或金融风险评估。数据集本身虽聚焦于八字命理,但其评估协议——包括预计算且格式固定的上下文表示、多轮问答设计以及结构化推理协议——为开发面向专业领域的、可重复且客观评分的AI能力评测套件提供了范本。这有助于推动AI系统在需要深厚领域知识和复杂条件判断的现实场景中的可靠部署与性能提升。
衍生相关工作
围绕 BAZIQA-BENCHMARK 衍生的经典工作主要集中于改进大型语言模型的符号与时序推理能力。例如,受其启发,研究者可能进一步探索针对时序组合推理的专用模型架构或训练范式。同时,数据集中引入的结构化推理协议(SRP)作为一种诊断工具,催生了关于如何通过约束推理步骤顺序来分析和提升模型在复杂任务中表现的研究。此外,该基准也与更广泛的、关注文化背景或非标准知识系统的评估工作(如基于八字的角色模拟基准)形成互补,共同拓展了对模型在多样化推理环境中行为的理解。
以上内容由遇见数据集搜集并总结生成



