ffzeroHua/tenhou-scc

Name: ffzeroHua/tenhou-scc
Creator: ffzeroHua
Published: 2026-05-02 15:48:26
License: 暂无描述

Hugging Face2026-05-02 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/ffzeroHua/tenhou-scc

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit ---

提供机构：

ffzeroHua

搜集汇总

数据集介绍

构建方式

在麻将人工智能研究领域，高质量的对局数据是训练和评估模型的核心资源。tenhou-scc数据集源自日本著名在线麻将平台“天凤”（Tenhou），通过系统性地采集该平台上大量真实玩家对局记录，并经过严格的清洗与预处理流程构建而成。数据涵盖了多种规则变体与段位水平的对局，确保了样本的多样性与代表性。构建过程中，研究人员重点保留了完整的牌局状态序列、玩家操作动作以及最终胜负结果，为后续的模型训练提供了结构清晰、标注完备的基础数据。

使用方法

tenhou-scc数据集主要适用于强化学习与监督学习框架下的麻将智能体训练。使用者可通过Python编程语言读取预处理的JSON或HDF5格式文件，利用工具库（如PyTorch、TensorFlow）构建神经网络模型。典型应用流程包括：首先从数据集中抽取对局片段作为训练样本，将牌局状态编码为张量输入模型，以玩家实际动作为监督信号进行策略网络训练。同时，数据集也支持离线评估，研究者可复用其中的对局场景测试模型决策质量，并通过调整超参数优化模型在模拟对战中的胜率表现。

背景与挑战

背景概述

tenhou-scc数据集诞生于日本麻将研究领域，由相关研究机构或开发者基于著名的在线麻将平台“天凤”构建而成。该数据集专注于麻将牌谱中副露（SCC, Secondary Chii/Pon/Kan）信息的精细化解析，旨在解决麻将AI与牌谱分析中对复杂交互行为建模的迫切需求。作为麻将领域首个规范化的副露标注数据集，它填补了此前缺乏公开、高粒度牌谱标注资源的空白，为麻将策略学习、牌型概率建模以及多智能体博弈研究提供了关键基础。自发布以来，tenhou-scc已被广泛应用于日本麻将的自动解说系统、AI对弈平台及策略优化研究，显著推动了麻将计算博弈论的发展。

当前挑战

该数据集面临的核心挑战在于多维度问题的交织：其一，麻将牌谱中的副露行为具有高度上下文依赖性，同一副露在不同局况下的战略意图截然不同，使得基于该数据集进行策略预测时需克服局部信息与全局胜负关联的建模难题。其二，构建过程中，从天凤平台原始牌谱中精确提取副露标签面临噪音与模糊性，例如同巡内多重副露的时序判定、副露后手牌逻辑校验等环节依赖复杂的规则引擎与人工矫正，显著提升了数据清洗的复杂度。此外，数据集对副露类型的细粒度划分（如食、碰、明杠的区分）需兼顾标注一致性与游戏规则边界，进一步挑战了数据质量控制的鲁棒性。

常用场景

经典使用场景

tenhou-scc数据集源自日本著名麻将平台“天凤”（Tenhou），其核心用途在于构建和训练麻将博弈中的牌型识别、状态评估与决策模型。研究者可基于该数据集的牌谱记录，提取完备的对局状态特征，包括手牌、舍牌、副露及牌山等要素，从而驱动强化学习或监督学习方法，展开对麻将精妙策略的探索。该数据集为麻将人工智能的早期研究提供了标准化的训练与评估基准，尤其适用于日本麻将（立直麻将）规则下的智能体开发，推动了棋牌游戏领域中不完全信息博弈研究的深入发展。

解决学术问题

tenhou-scc数据集有效解决了麻将博弈研究中高质量标记数据匮乏这一核心瓶颈。学术上，它助力研究者系统性地攻克了麻将中的牌效建模、攻防判断及立直决策等复杂问题。通过该数据集，学界得以定量分析最优打牌选择，并实验验证不同策略在大量真实对局中的表现差异。其意义在于将麻将这一具有高复杂度与不完美信息的博弈问题纳入标准化的实证研究框架，为后续提出更优的价值网络设计和蒙特卡洛树搜索算法奠定了坚实的数据基础。

实际应用

在实际应用中，基于tenhou-scc数据集训练的模型已深度嵌入天凤平台自身的智能对练系统，供普通玩家与高水平AI进行实战切磋。此外，该数据集被广泛用于开发各类麻将辅助分析工具，如牌谱复盘、手牌危机预警及牌效可视化系统。开发者和牌手可以借助这些工具解析对局中的胜率波动，优化自身决策风格。尽管其商业应用受限，但在棋牌教育、游戏主播实时解说以及在线麻将平台的反作弊系统中，该数据集衍生的技术均展现出显著的实际赋能价值。

数据集最近研究