A Multilingual Dataset for Investigating Stereotypes and Negative Attitudes Towards Migrant Groups in Large Language Models

github2024-04-02 更新2024-05-31 收录

下载链接：

https://github.com/dsorato/stereotypes_negative_attitudes_towards_migrants_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于调查大型语言模型中对移民群体的刻板印象和负面态度的多语言数据集

A multilingual dataset designed to investigate stereotypes and negative attitudes towards immigrant groups in large language models.

创建时间：

2024-01-09

原始信息汇总

数据集概述

数据集名称

A Multilingual Dataset for Investigating Stereotypes and Negative Attitudes Towards Migrant Groups in Large Language Models (LLMs)

引用信息

@inproceedings{sorato2024multilingual, title={A Multilingual Dataset for Investigating Stereotypes and Negative Attitudes Towards Migrant Groups in Large Language Models}, author={Sorato, Danielly and Ventura, Carme Colominas and Zavala-Rojas, Diana}, booktitle={Proceedings of the 16th International Conference on Computational Processing of Portuguese}, pages={1--12}, year={2024} }

搜集汇总

数据集介绍

构建方式

该数据集旨在探究大型语言模型中对移民群体的刻板印象和负面态度，其构建过程基于多语言文本的收集与分析。研究者通过从公开的多语言语料库中提取相关文本，结合人工标注和自动化工具，筛选出涉及移民群体的表达，并对其进行分类和标注。这一过程确保了数据的多样性和代表性，涵盖了不同语言和文化背景下的移民话题。

特点

该数据集的一个显著特点是其多语言性，涵盖了多种语言的文本，能够反映不同文化背景下对移民群体的态度。此外，数据集中的文本经过精细标注，包括刻板印象、负面态度等类别，为研究者提供了丰富的分析维度。数据集的构建还特别注重平衡性，确保不同语言和移民群体的代表性，从而为跨文化研究提供了坚实的基础。

使用方法

该数据集可用于研究大型语言模型在处理移民话题时的表现，特别是模型是否表现出刻板印象或负面态度。研究者可以通过分析数据集中的标注文本，评估模型的偏见程度，并开发去偏方法。此外，数据集还可用于跨文化研究，比较不同语言和文化背景下对移民群体的态度差异。使用该数据集时，建议结合相关论文中的分析方法，以确保研究的科学性和严谨性。

背景与挑战

背景概述

随着大型语言模型（LLMs）在多语言环境中的广泛应用，研究者们逐渐关注到这些模型在处理与移民群体相关的文本时可能存在的偏见和负面态度。为了深入探讨这一问题，Danielly Sorato、Carme Colominas Ventura和Diana Zavala-Rojas等研究人员于2024年创建了一个多语言数据集，旨在分析LLMs中对移民群体的刻板印象和负面态度。该数据集在PROPOR 2024会议上首次发布，并迅速成为相关领域的重要研究工具。通过提供多语言环境下的文本样本，该数据集为研究者们提供了一个独特的视角，以评估和改进LLMs在处理敏感社会问题时的表现。

当前挑战

该数据集的核心挑战在于如何准确捕捉和量化LLMs中对移民群体的刻板印象和负面态度。由于语言和文化背景的多样性，构建一个能够涵盖不同语言和文化的多语言数据集本身就是一个复杂的过程。此外，研究者们还需要确保数据集的样本具有代表性，以避免引入新的偏见。在数据收集和标注过程中，如何平衡不同语言和文化背景下的表达方式，以及如何处理潜在的敏感内容，都是构建过程中需要克服的难题。这些挑战不仅影响了数据集的构建质量，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

该数据集主要用于研究大型语言模型（LLMs）中对移民群体的刻板印象和负面态度。通过多语言数据的收集与分析，研究者能够深入探讨不同文化背景下语言模型对移民群体的偏见表现，进而揭示模型在处理敏感话题时的潜在问题。这一场景为语言模型的公平性和包容性研究提供了重要数据支持。

衍生相关工作

该数据集衍生了一系列关于语言模型偏见检测与缓解的研究工作。例如，基于该数据集的实证分析，研究者提出了多种模型优化方法，如数据增强、偏见校正算法等。此外，该数据集还激发了跨学科合作，推动了语言学、社会学与人工智能领域的交叉研究，为构建更公平的语言技术生态系统奠定了基础。

数据集最近研究