five

TMGBENCH

收藏
arXiv2024-10-14 更新2024-10-16 收录
下载链接:
https://github.com/PinkEx/TMGBench
下载链接
链接失效反馈
官方服务:
资源简介:
TMGBENCH是由哈尔滨工业大学和香港大学联合创建的一个用于评估大型语言模型(LLMs)战略推理能力的系统性游戏基准。该数据集涵盖了144种基于Robinson-Goforth拓扑结构的2×2游戏类型,每种类型包含多个实例,并通过合成数据生成技术创建了多样化的故事背景游戏。数据集的创建过程包括主题控制和人工审查,确保数据的高质量和多样性。TMGBENCH旨在通过复杂的序列、并行和嵌套游戏结构,评估LLMs在多层次决策中的战略推理能力,解决现有基准在游戏类型覆盖、数据泄露和可扩展性方面的不足。

TMGBENCH is a systematic game-based benchmark co-developed by Harbin Institute of Technology and The University of Hong Kong for evaluating the strategic reasoning capabilities of Large Language Models (LLMs). This dataset encompasses 144 categories of 2×2 games based on the Robinson-Goforth topology, with multiple instances for each category, and generates diverse story-driven games using synthetic data generation techniques. The dataset construction process incorporates theme control and manual review to ensure high data quality and diversity. TMGBENCH aims to evaluate the strategic reasoning abilities of LLMs in multi-level decision-making through complex sequential, parallel, and nested game structures, addressing the limitations of existing benchmarks in terms of game type coverage, data leakage, and scalability.
提供机构:
哈尔滨工业大学
创建时间:
2024-10-14
搜集汇总
数据集介绍
main_image_url
构建方式
TMGBENCH的构建基于Robinson-Goforth的2×2游戏拓扑结构,涵盖了144种游戏类型。这些游戏类型被分为经典游戏和故事背景游戏两类。经典游戏直接采用拓扑结构中的游戏类型,而故事背景游戏则通过合成数据生成技术,利用GPT-4o模型生成,确保了游戏场景的多样性和新颖性。此外,为了提供可持续的评估框架,这些游戏被视为原子单元,并通过顺序、并行和嵌套结构组织成更复杂的游戏形式,以适应日益强大的大型语言模型(LLMs)的评估需求。
特点
TMGBENCH的特点在于其全面的游戏类型覆盖、新颖且多样化的场景设计以及灵活的游戏组织方式。通过合成数据生成技术,故事背景游戏不仅避免了数据泄露的风险,还提供了丰富的现实生活主题,增强了游戏的真实感。此外,复杂的游戏形式设计使得评估框架能够持续适应不断进步的LLMs,确保评估的全面性和准确性。
使用方法
TMGBENCH的使用方法包括对主流LLMs进行全面的评估,涵盖理性推理、推理鲁棒性、心智理论(Theory-of-Mind)能力以及复杂游戏形式中的推理能力。评估过程中,通过直接回答(DA)和思维链(CoT)等提示方法,激发LLMs的战略推理过程。此外,还设计了复杂的游戏形式,如顺序、并行和嵌套结构,以评估LLMs在多层次决策中的表现。最终,通过Nash均衡作为评估标准,结合精细的评估指标,对LLMs的战略推理能力进行细致评估。
背景与挑战
背景概述
TMGBENCH,由香港大学和哈尔滨工业大学的研究人员共同开发,是一个系统性的游戏基准,旨在评估大型语言模型(LLMs)的战略推理能力。该数据集的创建背景源于当前LLMs在战略推理任务中的应用日益增多,特别是在涉及多智能体互动和社交智能的场景中。TMGBENCH通过涵盖144种游戏类型,包括经典的2×2游戏和基于故事的合成游戏,提供了一个全面的评估框架。该数据集不仅解决了现有研究中游戏类型覆盖不足的问题,还通过合成数据生成技术创建了多样化和高质量的游戏场景,确保了评估的可持续性和扩展性。
当前挑战
TMGBENCH面临的主要挑战包括:1) 当前研究中游戏类型覆盖不足,导致对LLMs战略推理能力的评估不全面;2) 经典游戏场景存在数据泄露风险,可能影响评估的公正性;3) 现有基准缺乏扩展性,难以应对日益强大的LLMs。此外,构建过程中遇到的挑战还包括合成数据生成的高质量要求和确保游戏场景的多样性。这些挑战共同构成了TMGBENCH在评估LLMs战略推理能力时需要克服的关键问题。
常用场景
经典使用场景
TMGBENCH 数据集的经典使用场景在于评估大型语言模型(LLMs)在战略推理任务中的表现。通过涵盖 144 种基于 Robinson-Goforth 拓扑的 2×2 游戏类型,该数据集不仅包括经典游戏场景,还通过合成数据生成技术创建了多样化的故事背景游戏。这种设计使得研究者能够系统地测试 LLMs 在不同游戏结构和复杂情境下的战略推理能力,特别是在连续、并行和嵌套游戏结构中的表现。
实际应用
TMGBENCH 数据集在实际应用中具有广泛潜力,特别是在需要复杂决策和多步骤推理的领域。例如,在商业策略制定中,企业可以利用该数据集测试和优化其决策模型,以应对市场竞争中的多变情况。此外,政府和组织在制定政策和战略时,也可以借助 TMGBENCH 来评估和提升其决策系统的战略推理能力。通过模拟真实世界的复杂情境,该数据集为提升智能决策系统的实际应用效果提供了有力支持。
衍生相关工作
TMGBENCH 数据集的提出催生了一系列相关研究工作,特别是在 LLMs 的战略推理和 Theory-of-Mind 能力评估方面。例如,研究者们利用该数据集开发了新的评估方法和提示技术,以更深入地理解 LLMs 在不同游戏结构中的表现。此外,TMGBENCH 还激发了对 LLMs 在多玩家、动态和复杂游戏环境中推理能力的研究,推动了游戏理论与人工智能交叉领域的创新发展。这些衍生工作不仅丰富了 LLMs 的应用场景,也为未来智能系统的设计和优化提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作