five

gender-ambiguous occupational terms dataset|性别研究数据集|自然语言处理数据集

收藏
arXiv2025-03-06 更新2025-03-11 收录
性别研究
自然语言处理
下载链接:
http://arxiv.org/abs/2503.04372v1
下载链接
链接失效反馈
资源简介:
该数据集是一个基准数据集,包含英语中性别模糊的职业术语,涵盖了ISCO-08职业分类系统的全部分类。数据集旨在为评估机器翻译模型处理性别模糊性的能力提供标准化资源。
提供机构:
雅典国立技术大学电气与计算机工程学院,帕特拉斯大学社会政策和政治学学院
创建时间:
2025-03-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
在机器翻译系统中,职业术语的性别歧义问题是一个普遍现象。为了解决这个问题,研究者们提出了一种评估性别偏见的新方法。他们引入了一种方法来检测源文本和翻译之间的性别失衡,并构建了一个包含模糊英文输入的基准数据集,以及基于概率的指标来量化模型偏离规范性标准或参考分布的程度。具体来说,他们使用LLM-based组件来检测翻译文本中的职业,并通过将LLM生成的描述与ISCO-08分类系统进行匹配来验证检测结果的准确性。然后,他们使用LLM为检测到的职业分配性别分类,并将源文本和翻译文本中的性别不对称性进行检测。这种方法允许他们在没有明确性别指示的情况下,分析模型在不同职业类别上的行为,并揭示模型在处理性别歧义时的系统性偏差。
特点
该数据集的主要特点是它包含了模糊英文输入的职业术语,这些术语在翻译时没有明确的性别指示。这使得该数据集成为一个宝贵的资源,用于评估机器翻译模型在处理性别歧义时的表现。此外,该数据集覆盖了ISCO-08分类系统中所有的职业类别,这使得研究者能够全面分析不同职业类别上的性别偏见。此外,该数据集还提供了基于概率的指标,用于量化模型偏离规范性标准或参考分布的程度,这使得研究者能够更准确地评估模型在处理性别歧义时的性别偏见。
使用方法
该数据集的使用方法主要包括以下几个方面:首先,研究者可以使用LLM-based组件来检测翻译文本中的职业,并通过将LLM生成的描述与ISCO-08分类系统进行匹配来验证检测结果的准确性。然后,他们可以使用LLM为检测到的职业分配性别分类,并将源文本和翻译文本中的性别不对称性进行检测。最后,他们可以使用基于概率的指标来量化模型偏离规范性标准或参考分布的程度,并分析模型在不同职业类别上的行为。此外,该数据集还可以用于评估机器翻译模型在处理性别歧义时的表现,并为研究者提供有价值的见解。
背景与挑战
背景概述
gender-ambiguous occupational terms dataset 是由雅典国立科技大学电气与计算机工程学院的 Orfeas Menis Mastromichalakis、Giorgos Filandrianos 和 Giorgos Stamou 以及帕内蒂翁大学社会科学与政治学系的 Maria Symeonaki 等研究人员创建的。该数据集旨在解决机器翻译(MT)系统中普遍存在的性别偏见问题,特别是在翻译模糊职业术语时。由于 MT 系统在翻译过程中需要为某些职业分配性别,而在缺乏明确指导或上下文线索的情况下,这种模糊性可能导致性别偏见的系统性出现。该数据集的创建对于促进公平和公正的职业代表性具有重要意义,并有助于揭示和减少机器翻译中的性别偏见。该数据集的研究背景和挑战对于推动 NLP 和 MT 领域的发展具有重要意义,有助于推动相关领域的研究和进步。
当前挑战
gender-ambiguous occupational terms dataset 面临的主要挑战包括:1) 解决领域问题:该数据集旨在解决机器翻译中普遍存在的性别偏见问题,特别是在翻译模糊职业术语时。由于 MT 系统在翻译过程中需要为某些职业分配性别,而在缺乏明确指导或上下文线索的情况下,这种模糊性可能导致性别偏见的系统性出现。2) 构建过程中所遇到的挑战:构建该数据集需要解决职业识别和性别分类的问题,以准确地评估 MT 系统中的性别偏见。此外,该数据集还需要解决如何有效地衡量 MT 系统的性别偏见,以及如何使用参考分布来评估 MT 系统的偏差程度。这些挑战对于推动 NLP 和 MT 领域的发展具有重要意义,有助于推动相关领域的研究和进步。
常用场景
经典使用场景
该数据集主要用于评估机器翻译系统中性别偏见的程度,特别是当翻译涉及到职业术语时。通过对包含性别模糊职业术语的英文文本进行翻译,并分析目标语言中职业术语的性别分配,研究者可以揭示机器翻译模型是否倾向于将某些职业与特定性别联系起来,从而反映和强化社会刻板印象。
解决学术问题
该数据集解决了机器翻译系统中性别偏见的问题。通过提供包含性别模糊职业术语的英文文本,并使用概率指标来量化翻译模型的偏差程度,研究者可以评估模型的行为是否与规范标准或参考分布一致。这有助于揭示和量化机器翻译模型中的性别偏见,为消除或减轻这些偏见提供依据。
衍生相关工作
该数据集的衍生相关工作包括开发用于检测和量化机器翻译中性别偏见的工具和方法,以及创建用于评估和改进翻译模型公平性的基准数据集。这些工作有助于揭示和量化机器翻译模型中的性别偏见,并为消除或减轻这些偏见提供依据。此外,该数据集还推动了跨学科研究,将计算机科学与社会科学相结合,以更全面地理解机器翻译中的性别偏见问题。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录

集装箱数据集

集装箱数据集,包含3500张1080p集装箱图像以及其编码区的xml标注

AI_Studio 收录