Chinese Fortune Telling Bench

github2026-04-23 更新2026-04-25 收录

下载链接：

https://github.com/DestinyLinker/MingLi-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于评估大型语言模型在中国传统算命（八子和紫微斗数）方面的基准数据集。数据来源于2022年至2025年的全球算命师大赛，包含160个标准化多选题，涵盖十二个生活方面（职业、健康、婚姻、子女、财富等）。

A benchmark dataset for evaluating large language models (LLMs) on Chinese traditional fortune-telling, specifically covering Bazi and Zi Wei Dou Shu. The dataset is sourced from the Global Fortune-Telling Masters Competition held between 2022 and 2025, and consists of 160 standardized multiple-choice questions across twelve domains of life, including career, health, marriage, children, wealth, and more.

创建时间：

2026-04-22

原始信息汇总

MingLi-Bench：中国传统命理基准数据集

数据集概览

MingLi-Bench 是一个专门用于评估大语言模型在中国传统命理（八字和紫微斗数）方面能力的基准测试数据集。数据集包含 160 道标准化选择题，涵盖十二个生活领域，答案通过精确匹配进行评分。

数据来源

时间范围：2022–2025 年
数据源：历年全球算命师大赛（Global Fortune Teller Competition）
原始数据：存储在 data/raw/ 目录下

数据集内容

数据文件

文件	描述
`data/data.json`	160 道标准化选择题，涵盖十二个生活领域（事业、健康、婚姻、子女、财运等）
`data/fortune_api_results.json`	预计算的八字和紫微斗数命盘（通过 iztro 工具生成），按案例ID索引，用于隔离纯推理能力与命盘推导

评估领域

涵盖十二个生活方面：事业、健康、外貌、婚姻、子女、学业、官非、家庭、性格、灾劫、财运、运势

使用方式

运行环境

Python 3.9+
通过 pip 安装依赖：pip install -r requirements.txt

配置要求

需要 .env 文件配置 API 密钥
支持多种模型提供商：OpenRouter、OpenAI、Anthropic、Google、DeepSeek、Doubao

核心参数

参数	说明
`--model`	指定评估模型（必需）
`--year`	按年份筛选（2022–2025）
`--cot`	启用思维链推理
`--astro`	注入预计算命盘数据
`--categories`	按领域类别筛选
`--shuffle-options`	随机打乱选项顺序

输出结果

每次运行生成三个文件（默认存储在 logs/ 目录）：

<model>_results.json：每题预测结果、评分和汇总
<model>_summary.txt：关键指标摘要
<model>_responses/：模型原始回答，每题一个文件

许可协议

采用 MIT 许可证

联系方式

Issues：https://github.com/DestinyLinker/MingLi-Bench/issues
邮箱：help@destinylinker.com

搜集汇总

数据集介绍

构建方式

Chinese Fortune Telling Bench的构建依托于全球算命师大赛（Global Fortune Teller Competition）2022年至2025年的历年真题，经过系统化的整理与标准化处理，形成了一套包含160道多项选择题的测评基准。每道题目均围绕八字与紫微斗数两大中国传统命理学体系展开，覆盖事业、健康、婚姻、子女、财富等十二个人生维度。数据集以JSON格式存储，并预先通过iztro库计算了对应的八字与紫微斗数星盘，将命盘推导结果与题目分离，从而能够独立评估大语言模型在命理解读推理方面的能力，避免因日期到星盘转换的误差干扰模型推理性能的考量。

特点

该数据集具有鲜明的文化专业性与结构灵活性。其题目来源权威、时效性强，涵盖近四年的竞赛内容，能够反映命理学领域的最新趋势与典型问题。数据集不仅提供了标准化答案用于精确匹配评分，还支持按年份、按类别进行筛选，便于研究者针对特定年份或人生主题进行细粒度分析。此外，预先计算的天盘数据与链式思维提示的结合使用，允许研究者隔离星盘推导与逻辑推理两个环节，从而更精确地评估模型在传统文化复杂推理任务上的真实表现。数据集还支持选项随机化，以防范模型对选项位置产生偏好，提升评估的公平性。

使用方法

用户可通过命令行工具便捷地调用该数据集评估各类大语言模型。首先需配置环境文件，填入所需模型提供商的API密钥，随后使用mingli_bench.cli模块执行评估。推荐启用链式思维提示和预先计算的星盘注入参数，以充分测试模型的推理能力。用户可指定模型名称、评估年份、并发请求数等参数，并可选择将结果保存至日志目录或仅终端输出。评估完成后，系统会生成包含逐题预测、评分摘要及原始模型回复的详细报告，便于研究者深入分析模型的优势与不足。

背景与挑战

背景概述

Chinese Fortune Telling Bench（MingLi-Bench）是一个专为评估大语言模型在中华传统命理学（八字与紫微斗数）领域推理能力而设计的基准测试集。该数据集由DestinyLinker团队创建，依托于2022年至2025年全球算命师大赛的历年真题，精心构建了涵盖事业、健康、婚姻、子女、财运等十二个人生维度的160道标准化选择题。其核心研究问题在于检验大语言模型能否基于出生时间推演命盘并给出准确预测，从而衡量模型在高度符号化、规则驱动的传统文化知识体系中的表现。这一工作的开创性在于，它将千年命理智慧与前沿AI能力评估相结合，为探究模型在非西方、非科学范式下的复杂推理提供了独特的量化工具，对跨文化AI评测领域具有重要影响力。

当前挑战

该数据集面临的核心挑战首先源于命理学本身的复杂性——八字和紫微斗数依赖天干地支、宫位星曜等高度符号化的推演逻辑，模型需在缺乏直观物理意义的情况下进行多步推理，对其实质理解能力提出了严苛考验。其次，构建过程中的挑战在于如何将主观性强、解读多元的命理问答转化为客观可判的标准化评估：团队通过引入iztro工具预计算命盘，将命盘推衍与推理过程解耦，以聚焦于模型从命盘中提取语义关联的能力，并通过随机化选项顺序来规避位置偏差，确保评测的公平性与可重复性。此外，160题的小规模样本量虽便于快速迭代，但也对评测统计显著性构成了制约。

常用场景

经典使用场景

Chinese Fortune Telling Bench（CFTB）是一个专门用于评估大语言模型在中国传统命理学领域理解与推理能力的基准测试数据集。它聚焦于八字（Bazi）和紫微斗数（Ziwei Doushu）这两种东方神秘学体系，通过160道标准化选择题，覆盖事业、健康、婚姻、子女、财运等十二个人生维度。该数据集最经典的使用场景是作为衡量语言模型在高度结构化、符号化且富含文化意涵的知识领域中的表现标杆，尤其适合测试模型在多步推理、跨模态符号解释以及隐式常识关联等方面的能力。研究者可借助CFTB系统地比较不同模型在命理学特殊语境下的逻辑一致性、知识记忆深度以及上下文整合能力，从而为模型在非西方知识体系下的泛化性能提供一个独特而严谨的评测窗口。

实际应用

实际应用中，CFTB所模拟的命理咨询场景具有明确的产业转化价值。在数字生活服务领域，该数据集可用于开发智能命理助手，为用户提供基于出生信息的个性化运势分析、择日建议或职业规划参考。在文化教育与内容创作方面，它能够辅助生成具有传统命理色彩的解释性文本，帮助普通用户理解复杂的八字或紫微盘格局，降低专业知识的获取门槛。此外，CFTB还可服务于游戏开发中的角色命运系统构建，以及面向华语用户的智能客服场景，通过赋予机器对中国传统文化中“天人合一”思想的具象化表达能力，提升交互的亲切感与说服力。这类应用不仅拓展了语言模型在垂直文化领域的落地潜力，也为人机协作在非理性决策支持场景中的可行性提供了探索方向。

衍生相关工作

基于CFTB的开放架构，该数据集已催生出多条值得关注的研究线索。一方面，研究者利用其结构化的选择题形式，迁移至其他东方命理体系如占星、奇门遁甲等，构建跨体系的神秘学推理评估框架；另一方面，数据集提供的预先计算天文图接合链式思维推理机制，为探索模型在符号压缩与解压缩任务上的表现提供了标准化接口，从而孕育出将命理图视为一种结构化知识图谱进行图神经网络推理的交叉工作。此外，CFTB所揭示的模型在不同命理维度的表现差异，正进一步启发针对特定文化偏见与知识表征不平衡性的纠正方法研究，推动多文化常识注入与领域特化微调技术在更广泛的低资源文化场景下的应用探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集