Geo20Q+

Name: Geo20Q+
Creator: 乔治亚理工学院
Published: 2025-08-07 23:53:30
License: 暂无描述

arXiv2025-08-07 更新2025-08-12 收录

下载链接：

https://github.com/Harsh-Lalai/Geo20QPlus

下载链接

链接失效反馈

官方服务：

资源简介：

Geo20Q+是一个包含来自世界各地各种地理区域实体的数据集，包括文化上有重要意义的事物（如食物、地标、动物）和知名人士（如政治家、学者、运动员等）。该数据集旨在评估大型语言模型（LLMs）在推理过程中隐含的地域和文化偏见。Geo20Q+数据集的创建过程包括从维基百科收集实体页面，并根据实体在各个国家的知名度进行排序和筛选。数据集包含8375个事物实体和24049个知名人士实体。Geo20Q+数据集可以用于评估LLMs在不同游戏设置和多种语言环境下的推理能力和地域性能差异。

Geo20Q+ is a dataset encompassing entities from various geographical regions across the globe, including culturally significant items such as foods, landmarks, animals, and well-known public figures including politicians, scholars, athletes, etc. This dataset aims to evaluate the implicit geographic and cultural biases in the reasoning processes of large language models (LLMs). The creation of the Geo20Q+ dataset entails collecting entity pages from Wikipedia, followed by sorting and filtering based on the popularity of entities across different countries. The dataset includes 8,375 entity items and 24,049 well-known public figures. The Geo20Q+ dataset can be used to assess the differences in reasoning capabilities and geographic performance of LLMs across diverse game settings and multilingual environments.

提供机构：

乔治亚理工学院

创建时间：

2025-08-07

原始信息汇总

Geo20Q+ 数据集概述

数据集简介

Geo20Q+ 是一个地理平衡数据集，旨在通过受20个问题启发的多轮推理游戏评估大型语言模型（LLMs）中的隐式地理偏见。数据集包含来自全球不同地区的两种类型实体：著名人物和文化重要事物。

文件结构

数据集包含以下文件结构：

Notable_People/
- notable_people_raw.csv：著名人物的原始数据
- notable_people_processed.csv：处理后的著名人物数据
Things/
- things_raw.csv：文化重要事物的原始数据
- things_processed.csv：处理后的文化重要事物数据

数据集内容

`notable_people_processed.csv`

包含以下列的结构化信息：

name：人物姓名
gender：性别类别（如男性、女性、其他）
primary_occupation：主要职业或领域（如政治家、运动员）
century：主要活跃的世纪（如20世纪、21世纪）
country：与该人物最相关的国家

`things_processed.csv`

包含以下列的地理重要非人类实体：

name：实体名称
category：类型或领域（如食物、地标、动物）
country：与该实体最相关的国家

原始数据文件

notable_people_raw.csv：包含著名人物的原始数据，包括出生日期、死亡日期、职业、维基百科浏览量等额外元数据。
things_raw.csv：包含文化重要事物的原始数据，包括维基百科链接、浏览量等。

引用

如果使用此数据集或相关代码库，请引用以下文献： bibtex @inproceedings{lalai20q, title={The World According to LLMs: How Geographic Origin Influences LLMs Entity Deduction Capabilities}, author={Lalai, Harsh Nishant and Shah, Raj Sanjay and Pei, Jiaxin and Varma, Sashank and Wang, Yi-Chia and Emami, Ali}, booktitle={Second Conference on Language Modeling} }

搜集汇总

数据集介绍

构建方式

Geo20Q+数据集的构建采用了多源数据整合与严格筛选的方法。研究团队从英文维基百科中提取了具有地理标记的页面，涵盖了旅游景点、山脉、河流、大学、动物、食物等多个主题类别，并通过自定义爬虫工具收集了每个国家最多50个实体，最终形成8375个文化显著对象（Things）。对于知名人物（Notable people），数据集基于Laouenan等人（2022）的全球知名度数据集，筛选了172个国家中最受欢迎的个体，确保每个国家至少有50名代表，总计24049个实体。为确保地理归属的一致性，研究团队通过大型语言模型（LLMs）对每个实体的主要关联国家进行了确认，仅保留所有模型一致认可的实体（约88%的候选实体）。此外，为避免预训练数据中的记忆效应，团队特别关注了地理特异性强且细粒度的实体（如“奥迪汽车”“阿方索芒果”），而非通用高频实体。

特点

Geo20Q+数据集的核心特点在于其地理多样性与文化代表性。该数据集涵盖了全球六大洲（非洲、亚洲、欧洲、北美洲、南美洲、澳大利亚）的实体，并进一步细分为“文化显著对象”和“知名人物”两类，以全面评估模型对不同地域和文化背景的推理能力。数据集的独特之处在于其平衡性设计：通过维基百科页面浏览量（pageviews）和预训练语料频率（Dolma数据集）的双重验证，确保实体选择的客观性。此外，数据集支持七种语言（英语、印地语、普通话、日语、法语、西班牙语、土耳其语）的评估，为多语言环境下的地理偏见研究提供了基础。值得注意的是，数据集通过“20问游戏”的两种配置（标准20轮和无限制轮次）揭示了模型在推理过程中隐含的地理偏好，例如对“全球北方”和“西方”实体的显著优势。

使用方法

Geo20Q+数据集的使用需结合交互式评估框架。研究者需部署两个相同LLM实例，分别扮演“提问者”（Guesser）和“裁判”（Judge）角色：提问者通过多轮二元提问（是/否/可能）逐步推断目标实体，裁判则基于实体知识提供回答。评估分为两种模式——标准20轮模式（模拟传统游戏）和无限制轮次模式（最多150轮，以探索深度推理）。核心指标包括成功率（准确识别实体的比例）和推理效率（成功所需的平均轮次）。为控制变量，所有实验需固定提示模板（如“仅用‘是’‘否’‘可能’回答”）并避免跨模型知识差异。此外，研究者可通过分析模型提问序列（如优先询问西方相关特征）或早期放弃行为，揭示地理偏见在推理链中的嵌入方式。数据集的多语言支持允许进一步探究语言对地理偏见的影响，但需注意提示模板需经母语者校验以确保语义一致性。

背景与挑战

背景概述

Geo20Q+数据集由Harsh Nishant Lalai、Raj Sanjay Shah等研究人员于2025年创建，旨在评估大型语言模型（LLMs）在地理实体推理任务中的隐含偏见。该数据集包含来自全球不同地区的知名人物和文化标志物（如食物、地标、动物等），覆盖七种语言（英语、印地语、普通话等）。其核心研究问题是探究LLMs在主动提问的20Questions游戏中，对不同地理来源实体的推理能力是否存在系统性偏差。该数据集通过多轮对话框架揭示了LLMs对全球北方与南方、西方与东方实体存在的显著推理差异，为评估模型的文化包容性提供了创新方法论，填补了地理平衡实体推理数据集的空白。

当前挑战

Geo20Q+面临的挑战主要体现在两个方面：领域问题方面，需解决LLMs在地理实体推理中存在的隐含偏见问题，例如模型对全球北方/西方实体的推理成功率显著高于南方/东方实体，且实体在预训练语料中的出现频率无法完全解释这种差异；构建过程方面，需处理实体地理归属的模糊性（如跨国关联实体），通过多模型共识机制确保标注一致性，同时避免预训练数据污染问题——通过筛选细粒度地域特定实体（如'奥迪汽车'而非泛指的'汽车'）来强制模型进行真实推理而非机械记忆。此外，多语言提示的本地化验证和游戏框架的随机性控制也增加了数据集构建的复杂度。

常用场景

经典使用场景

Geo20Q+数据集通过20Questions游戏框架，系统评估大型语言模型（LLMs）在地理实体推理中的性能差异。该数据集包含全球不同地区的知名人物和文化标志性物体（如地标、食物、动物等），支持多轮问答交互，旨在揭示模型在主动提问场景下的隐式地理偏见。经典使用场景包括模型扮演“提问者”和“裁判”角色，通过有限轮次（20轮）或无限轮次的对话链，分析模型对南北半球、东西方实体推理能力的系统性差异。

解决学术问题

Geo20Q+解决了LLMs隐式地理偏见量化难题，填补了传统评估方法仅关注显式偏见的空白。通过多语言（英语、印地语、中文等7种语言）和多配置（标准20轮/无限轮）实验，该数据集证明模型对全球北方和西方实体的推理成功率显著高于南方和东方实体（如埃菲尔铁塔推理成功率高于泰姬陵）。其创新性在于通过模型自主提问链揭示知识表征中的文化倾斜，而非依赖人工预设问题，为公平性评估提供了动态推理视角。

衍生相关工作

Geo20Q+催生了多项关于LLMs地理偏见的研究，如《GuessWhere?》将其视觉-语言推理框架扩展至地标识别任务，《GlobalLIAR》利用该数据集的实体分类方法检测多语言生成事实性偏差。后续工作Patchscopes进一步结合神经元激活分析，揭示模型在推理不同地域实体时的注意力路径差异。数据集提出的“主动提问评估范式”也被应用于性别、种族等维度偏见的探测，推动形成更全面的AI公平性评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集