Culturally Aware Dataset for Latin American Contexts

Name: Culturally Aware Dataset for Latin American Contexts
Creator: Facultad Jurisprudencia Ciencias Sociales y Políticas, Universidad de Guayaquil, Guayaquil, Ecuador; Department of Psychology and Human Factors, Michigan Technological University, Houghton, MI, USA; Department of Applied Computing, Michigan Technological University, Houghton, MI, USA
Published: 2025-11-06 14:00:35
License: 暂无描述

arXiv2025-11-06 更新2025-11-08 收录

下载链接：

https://github.com/areyesan/Advancing-Equitable-AI

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个针对拉丁美洲文化、历史和社会政治问题的文化感知数据集，包含54个问题，来源于在线论坛，主要是Reddit。数据集还包含了12位拉丁美洲用户的回答，以提供真实的地区观点。该数据集用于评估六个大型语言模型的文化背景意识。

This dataset is a culturally aware dataset focused on Latin American culture, history, and socio-political issues. It contains 54 questions sourced from online forums, primarily Reddit. The dataset also includes responses from 12 Latin American users to offer authentic regional perspectives. This dataset is utilized to assess the cultural contextual awareness of six large language models.

提供机构：

Facultad Jurisprudencia Ciencias Sociales y Políticas, Universidad de Guayaquil, Guayaquil, Ecuador; Department of Psychology and Human Factors, Michigan Technological University, Houghton, MI, USA; Department of Applied Computing, Michigan Technological University, Houghton, MI, USA

创建时间：

2025-11-06

原始信息汇总

数据集概述

基本信息

数据集名称：Advancing Equitable AI: Evaluating Cultural Expressiveness in LLMs for Latin American Contexts
研究领域：大型语言模型文化表达能力评估
研究焦点：拉丁美洲语境下的文化表达性
论文状态：已提交至ICML 2025拉丁美洲AI研讨会

数据集内容

数据来源

从13个拉丁美洲主题的Reddit子版块通过网络爬虫收集
包含535个独特问题
精选54个问题用于模型评估

数据文件

主要问题数据集：data/questions_latin_america.csv
模型响应文件：data/responses_<model>.csv（如responses_grok.csv、responses_chatgpt.csv）

数据特征

包含问题文本、来源URL和子版块名称
真实响应由12名拉丁美洲用户提供
使用Sentence-BERT嵌入和情感分析聚合为两个响应集（Resp V1和Resp V2）

评估框架

文化表达性指标

文化表达性计算公式： [ CE = alpha_1 cdot ext{Key. Freq.} + alpha_2 cdot (1 - Delta S) + alpha_3 cdot ext{Sem. Sim.} ] 其中权重参数：α₁=0.3，α₂=0.3，α₃=0.4

评估维度

关键词频率
情感对齐度
语义相似度

评估结果

文化表达性得分

Zephyr-7B：0.62
Grok：0.58
微调后的Mistral-7B：0.70（提升42.9%）

关键发现

Mistral-7B微调后关键词频率提升36.0%
情感错位减少57.9%
语义相似度最高提升19.0%
ChatGPT和Llama-2-7B存在积极性偏见
Zephyr-7B和Grok与拉丁美洲用户视角更匹配

技术实现

依赖环境

Python 3.8+
主要库：transformers、sentence-transformers、torch、pandas、numpy、scikit-learn、matplotlib、seaborn

微调配置

使用低秩自适应方法
3个训练周期
批次大小为1
梯度累积步数为4
需要NVIDIA GPU（如RTX 3070，8GB显存）

引用信息

bibtex @misc{morareyes2025advancingequitableaievaluating, title={Advancing Equitable AI: Evaluating Cultural Expressiveness in LLMs for Latin American Contexts}, author={Brigitte A. Mora-Reyes and Jennifer A. Drewyor and Abel A. Reyes-Angulo}, year={2025}, eprint={2511.04090}, archivePrefix={arXiv}, primaryClass={cs.SI}, url={https://arxiv.org/abs/2511.04090}, }

许可信息

项目采用MIT许可证

联系方式

Brigitte A. Mora-Reyes：brigitte.morar@ug.edu.ec
Jennifer A. Drewyor：jadrewyor@mtu.edu

搜集汇总

数据集介绍

构建方式

在人工智能领域，拉丁美洲的文化多样性常因数据集偏向经济发达地区而被忽视。该数据集通过系统化的网络爬虫方法，从Reddit等在线论坛的13个拉丁美洲主题社区中收集问题，涵盖文化、历史和社会政治议题。为确保数据代表性，研究团队采用多语言关键词过滤机制，筛选出535个独特问题，并最终精选54个核心问题作为评估基准。通过招募12名拉丁美洲本土用户生成真实回应，结合语义相似度分析和情感聚合，构建了包含两个版本用户响应的地面真值数据集，为文化表达性评估提供了可靠基础。

特点

该数据集显著体现了拉丁美洲地区的语言多样性和文化复杂性，覆盖西班牙语、葡萄牙语及克丘亚语等土著语言的使用场景。其内容深度融入本土视角，聚焦于殖民历史影响、土著权利及社会政治动态等区域性议题，有效突破了传统数据集的西方中心主义框架。通过引入文化表达性综合指标，数据集量化了语言模型在关键词频率、情感对齐和语义相似度等方面的表现，为评估模型的文化敏感性提供了多维度量标准。此外，数据集的构建强调社区参与和本土知识整合，确保了文化语境的真实性与代表性。

使用方法

该数据集主要应用于大型语言模型的文化语境评估与优化，通过设计拉丁美洲特定问题的提示模板，生成模型回应并与用户地面真值进行对比分析。研究人员可利用其内置的文化表达性指标，结合语义嵌入和情感分析工具，系统量化模型输出的文化对齐程度。在模型优化层面，数据集支持监督式微调流程，采用低秩自适应技术对模型参数进行针对性调整，显著提升其对区域文化的理解能力。这种应用方式不仅推动了跨文化自然语言处理的发展，也为构建更具包容性的人工智能系统提供了实践框架。

背景与挑战

背景概述

在人工智能技术快速发展的背景下，大型语言模型（LLMs）的训练数据往往偏向于经济发达地区，导致对拉丁美洲等发展中地区的文化表达存在系统性偏差。2025年，由厄瓜多尔瓜亚基尔大学和美国密歇根理工大学的研究团队共同创建的Culturally Aware Dataset for Latin American Contexts应运而生，旨在通过收集拉丁美洲论坛中的多语言内容（包括西班牙语、葡萄牙语及克丘亚语等土著语言），构建反映区域历史、社会政治动态与文化认同的基准数据集。该数据集聚焦于解决AI模型中的文化抹除与中心-边缘动态问题，通过量化文化表达性指标，推动公平AI的发展，并为语言模型的区域适应性优化提供了关键数据支撑。

当前挑战

该数据集致力于应对拉丁美洲语境下AI模型的文化表达偏差挑战，具体包括模型对土著权利、社会政治复杂性等区域议题的认知不足，以及语言多样性（如西班牙语变体与土著语言）导致的语义理解困难。在构建过程中，面临数据采集的多语言处理难题，需平衡西班牙语、葡萄牙语及克丘亚语等低资源语言的代表性；同时，论坛数据的文化语境提取存在复杂性，要求精确过滤以保留本土视角，而用户样本的规模限制与性别不平衡（如12名用户中男性占比偏高）可能影响数据泛化能力，需通过社区参与式方法增强数据的真实性与包容性。

常用场景

经典使用场景

在拉丁美洲文化计算研究领域，该数据集主要应用于评估大型语言模型对拉美地区文化背景的理解能力。通过精心设计的54个涵盖文化认同、社会政治动态和区域历史等主题的问题，研究人员能够系统分析模型在关键词使用、情感表达和语义相似度等方面的表现。这种评估框架为量化模型的文化表达能力提供了可靠基准，特别适用于比较不同模型在处理拉美特定语境时的差异。

实际应用

在实际应用层面，该数据集为开发适应拉美地区需求的AI系统提供了重要支撑。经过微调的Mistral-7B模型在文化表达力指标上提升42.9%，这种改进可直接应用于教育内容生成、政策咨询和跨文化交流等场景。特别是在处理涉及原住民权利、殖民历史影响等敏感话题时，经过文化对齐的模型能够提供更符合当地视角的回应，避免因文化误读导致的伦理风险。

衍生相关工作

该数据集催生了多项重要的衍生研究，特别是在文化感知模型优化领域。基于LoRA的微调方法展示了如何通过低秩适应技术有效提升模型的文化表达能力。相关工作还探索了将评估框架扩展至克丘亚语和纳瓦特尔语等原住民语言的可行性，同时启发了对社区参与式数据收集方法的深入研究。这些工作共同推动了以边缘化群体为中心的人工智能开发范式的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集