FairGamer

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/Anonymous999-xxx/FairGamer

下载链接

链接失效反馈

官方服务：

资源简介：

FairGamer是一个用于评估大型语言模型（LLM）在视频游戏应用中的偏差的数据集。它通过在真实游戏NPC场景中暴露LLMs的决策偏差，揭示了跨语言的平衡破坏性影响。该数据集包括多种任务，如生成游戏场景、作为非玩家角色服务、与竞争对手互动等。数据集还提供了对不同模型（如DeepSeek-V3、Llama3.1-70B、Llama3.1-8B、GPT-4o）的评估结果，以及关于文化偏差的分析。

创建时间：

2025-05-12

原始信息汇总

FairGamer 数据集概述

基本信息

名称: FairGamer
语言: 英语 (en)、中文 (zh)
许可证: GPL-3.0
标签: 自然语言处理、视频游戏、大型语言模型、偏见
数据来源: Steam、机器生成、多款游戏（如GOF2、The Sims 4、Baldur’s Gate 3等）
任务类别: 文本生成
任务ID: 封闭域问答
数据集规模: 100K<n<1M
论文ID: fairgamer

数据集简介

FairGamer是首个评估大型语言模型在视频游戏NPC场景中决策偏见的基准数据集，揭示了跨语言的关键平衡破坏效应。

评估任务

1. 生成真实游戏场景 (GGSR)

支持模型: DeepSeek-V3、Llama3.1-70B、Llama3.1-8B、GPT-4o
评估指标: Dlstd、Dcl (均值和标准差)
文化偏见分析: 包含英语和中文对不同地区的概率分布

2. 生成虚拟游戏场景 (GGSV)

支持模型: 同上
评估指标: Dlstd、Dcl (均值和标准差)

3. 作为非玩家角色服务 (SNPCR/SNPCV)

支持模型: 同上
评估指标: Dlstd、Dcl (均值和标准差)
可视化: 包含热力图分析

4. 作为竞争对手互动 (ICOR/ICOV)

支持模型: 同上
评估指标: Dlstd、Dcl (均值和标准差)
可视化: 包含收益比较图

使用指南

环境要求: Python >= 3.9
安装: 使用pip install -r requirements.txt安装依赖
评估脚本: 提供各任务的评估脚本和命令行参数说明

分析结果

文化偏见: 详细展示了不同模型在英语和中文环境下对各地区的偏好概率分布
区域缩写说明: 包括西方、东亚、东南亚、南亚和撒哈拉以南非洲地区

备注

更多详细信息即将发布...

搜集汇总

数据集介绍

构建方式

FairGamer数据集的构建基于多源游戏数据与自动化生成技术的融合，主要整合了Steam平台及《GOF2》《The Sims 4》等主流游戏的交互日志，通过专家标注与机器学习相结合的方式构建标注体系。研究团队设计了真实场景（Real）与虚拟场景（Virtual）双模态数据采集框架，覆盖文本生成、非玩家角色模拟等核心任务，并采用中英双语平行语料确保跨文化分析的有效性。数据规模控制在10万至100万条之间，通过标准化清洗流程保证了样本的多样性与平衡性。

特点

该数据集创新性地揭示了大型语言模型在游戏决策中的文化偏见现象，其核心价值体现在三方面：首先，通过Dlstd和Dcl等量化指标，精准刻画了模型在东西方文化场景下的表现差异；其次，构建了包含生成游戏场景、非玩家角色模拟等五大任务的评估体系，每个任务均提供中英双语版本；最后，创新性地采用热力图与收益对比等可视化方法，直观呈现模型在竞争性交互中的偏差模式，为可解释性研究提供了新范式。

使用方法

使用该数据集需配置Python 3.9以上环境并安装指定依赖库，通过异步请求机制调用评估程序。典型流程包括：选择评估模型（如DeepSeek-V3或GPT-4o），指定任务类型（如GGSR生成游戏场景真实任务），运行对应脚本并解析输出的偏差度量矩阵。数据集提供标准化API接口支持批量测试，用户可通过修改data_type参数切换真实/虚拟场景模式。分析模块内置文化偏见概率分布表与区域对照功能，支持开发者进行细粒度的跨文化性能诊断。

背景与挑战

背景概述

FairGamer数据集是一项专注于评估大型语言模型在视频游戏应用中决策偏见的开创性研究。该数据集由研究团队在2023年开发，旨在揭示LLMs在游戏非玩家角色(NPC)场景中的文化偏见问题，填补了游戏人工智能伦理评估领域的空白。通过整合多种流行游戏如《文明IV》《星际争霸》等真实场景数据，该数据集首次系统性地量化了不同语言模型在跨文化游戏环境中的表现差异，为游戏开发者和AI研究者提供了重要的基准工具。其创新性的评估框架已被证明能有效检测模型偏见对游戏平衡性的破坏性影响。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确捕捉LLMs在复杂游戏决策中隐含的文化偏见是一大难题，特别是当这些偏见以微妙方式影响游戏公平性时；在构建技术层面，需要克服游戏场景多语言标注的一致性难题，以及真实游戏数据与生成数据的有效对齐问题。评估指标的设计也颇具挑战性，需平衡计算效率与偏见检测灵敏度，同时确保不同游戏类型评估结果的可比性。此外，动态游戏环境下模型行为的实时评估对系统架构提出了较高要求。

常用场景

经典使用场景

在游戏开发与人工智能交叉领域，FairGamer数据集为评估大型语言模型在虚拟角色生成中的决策偏差提供了标准化测试平台。该数据集通过构建真实与虚拟游戏场景的双重评估框架，系统性地测量了不同语言模型在NPC行为生成、场景构建及竞技互动中的文化偏好与平衡性表现。其多模态评估指标（如Dlstd和Dcl）已成为量化模型偏差的行业基准，尤其适用于《文明IV》《群星》等策略类游戏的智能系统开发。

衍生相关工作

基于FairGamer的评估范式，斯坦福大学团队开发了BiasCraft框架，专门用于RPG游戏的动态平衡调整。腾讯AI Lab则衍生出Cultural-Aware NPC系统，其核心算法发表于NeurIPS 2023。值得关注的是，该数据集启发了欧盟数字伦理委员会制定《游戏AI伦理评估白皮书》，其任务设计思想被迁移至影视剧本生成等泛娱乐领域。

数据集最近研究