人地系统建模与决策的通用框架初探：多主体深度强化学习及其在公地悲剧中的应用

中国科学数据2025-12-29 更新2026-04-25 收录

下载链接：

https://www.sciengine.com/AA/doi/10.1360/N072025-0092

下载链接

链接失效反馈

官方服务：

资源简介：

人地系统是人类活动与自然过程深度交织的复杂适应系统，随机性、非线性、反馈与涌现等现象交相作用，共同驱动着人类行为与自然动态之间的耦合演化。尽管地球系统科学中的自然系统模型已相对成熟，但对人类系统的建模仍存在明显不足，且缺乏能够有效刻画两者之间复杂交互，支持人地系统建模和决策的通用框架。针对上述问题，本研究提出了一个集成马尔可夫决策过程、多主体建模和深度强化学习的多主体深度强化学习框架，以应对人地系统中建模和决策的挑战。该框架以马尔可夫决策过程四元组为基础：环境状态（表征自然系统）、主体行动（表征人类系统）、状态转移（表征人地系统演化）和奖励机制。通过引入多主体建模来模拟从个人、群体、社区到政府和非政府组织等多层级主体的行为、决策及其复杂交互。深度强化学习则用于解决由此引入的高维状态-动作空间求解难题。最后，以经典的“公地悲剧”为背景，设计了一个由多名依据特定决策规则行动的渔民组成，围绕共同鱼塘资源进行决策的实验案例。结果表明，在仅受经济利益驱动时，渔民们倾向于采取高强度捕捞策略，导致鱼群数量在20个时间步长内迅速由初始的1600单位下降至接近零，重现了经典的“公地悲剧”现象；相比之下，引入可持续性惩罚机制或合作机制能够有效引导渔民调整捕捞策略，表现出更为稳定和适度的捕捞行为，鱼群存量在整个模拟期分别维持在约500和1500单位，实现了资源的可持续发展；此外，通过引入行为参数（贪婪因子），有效刻画了渔民在捕捞倾向上的异质性，高贪婪因子的渔民表现出激进的捕捞行为，而低贪婪因子的渔民则采取更为保守的策略，并揭示了个体行为差异对系统动态的影响。本研究提出的多主体深度强化学习综合集成框架能够有效捕捉异质主体与环境之间的动态反馈机制与非线性涌现特征，为解析人地系统中多过程、多主体及多活动之间的复杂交互机制提供了有力工具，并为未来开展多尺度系统治理与决策的大规模数值实验奠定了坚实的方法论基础。

创建时间：

2025-12-15