five

GenderAlign|性别偏见数据集|自然语言处理数据集

收藏
arXiv2024-06-20 更新2024-06-24 收录
性别偏见
自然语言处理
下载链接:
https://github.com/ZeroNLP/GenderAlign
下载链接
链接失效反馈
资源简介:
GenderAlign是由华南理工大学和帕洲实验室共同开发的数据集,专注于减少大型语言模型中的性别偏见。该数据集包含8000条单轮对话,每条对话配有一条‘选定’和一条‘拒绝’的响应,旨在通过对比展示无偏见和有偏见的对话模式。创建过程中,研究人员首先从现有数据集和书籍中收集显示性别偏见或描述性别差异的文本作为种子文本,然后使用GPT-3.5自动生成对话。GenderAlign的应用领域主要集中在改善语言模型的性别偏见问题,通过提供高质量的无偏见对话样本,帮助模型更好地理解和生成公正的文本内容。
提供机构:
华南理工大学
创建时间:
2024-06-20
原始信息汇总

GenderAlign: 用于减轻大型语言模型中性别偏见的对齐数据集

数据集描述

该数据集在论文 "GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models" 中进行了描述。如果您发现该数据集有用,请引用该论文。数据集格式非常简单——每个条目包含一对文本,一个“chosen”和一个“rejected”。

免责声明

数据集包含可能具有冒犯性或令人不安的内容。主题包括但不限于性别偏见、性别刻板印象、基于性别的暴力和其他可能令人不安的主题。请根据您的个人风险承受能力与数据集进行互动。该数据集旨在用于研究目的,特别是针对减少模型中性别偏见的研究。数据中表达的观点不代表作者的观点。

AI搜集汇总
数据集介绍
main_image_url
构建方式
GenderAlign数据集的构建基于对性别偏见的深入研究,通过收集和分类展示性别偏见的种子文本,并利用GPT-3.5生成单轮对话。每个对话包含一个问题、一个‘chosen’和一个‘rejected’响应。‘chosen’响应旨在减少性别偏见,而‘rejected’响应则可能包含偏见。数据集中的性别偏见被分类为四个主要类别:刻板印象、歧视性语言、职业和教育机构中的性别歧视以及对边缘化性别的偏见。
特点
GenderAlign数据集的显著特点是其专注于全面减少大型语言模型中的性别偏见。数据集包含8000个单轮对话,每个对话都有明确的‘chosen’和‘rejected’响应,确保了数据的高质量和针对性。此外,数据集的性别偏见分类系统为研究人员提供了一个清晰的框架,以便更有效地识别和纠正偏见。
使用方法
GenderAlign数据集主要用于训练和微调大型语言模型,以减少输出中的性别偏见。研究人员可以使用该数据集进行模型训练,通过对比‘chosen’和‘rejected’响应,优化模型使其生成更符合人类价值观和期望的输出。此外,数据集还可用于评估现有模型的性别偏见水平,并指导进一步的模型改进。
背景与挑战
背景概述
GenderAlign数据集由华南理工大学、巴尔的摩大学和帕州实验室的研究人员共同开发,旨在解决大型语言模型(LLMs)中存在的性别偏见问题。该数据集创建于2024年,包含8000个单轮对话,每个对话配有一个‘选择’和一个‘拒绝’的响应。通过对比,‘选择’的响应显示出较低的性别偏见和较高的质量。GenderAlign数据集的开发旨在通过提供一个专门针对性别偏见的数据集,帮助研究人员和开发者更有效地调整和优化LLMs,以减少其输出中的性别偏见,从而推动人工智能领域的公平性和伦理发展。
当前挑战
GenderAlign数据集面临的挑战主要包括:1) 解决LLMs中性别偏见的复杂性,这需要精确的分类和标注;2) 构建过程中遇到的困难,如确保数据集的多样性和代表性,以及避免引入新的偏见。此外,如何有效地利用该数据集进行模型训练,以实现性别偏见的显著减少,也是一个重要的研究课题。这些挑战要求研究者在数据收集、处理和模型优化等多个环节进行深入探索和创新。
常用场景
经典使用场景
GenderAlign数据集在大型语言模型(LLMs)中被广泛用于性别偏见的缓解。该数据集包含8000个单轮对话,每个对话配有一个‘chosen’和一个‘rejected’响应。‘chosen’响应展示了较低的性别偏见水平和较高的质量,而‘rejected’响应则包含更明显的性别偏见。通过对比这两种响应,研究人员可以有效地训练模型以减少性别偏见。
衍生相关工作
基于GenderAlign数据集,研究人员开发了多种相关的经典工作。例如,有研究团队利用该数据集开发了新的性别偏见检测算法,进一步提升了模型在性别偏见识别上的准确性。此外,还有工作探讨了如何在多轮对话中持续减少性别偏见,以及如何将GenderAlign的方法扩展到其他受保护属性(如种族和宗教)的偏见缓解中。这些衍生工作不仅丰富了性别偏见研究的理论基础,也为实际应用提供了更多可能性。
数据集最近研究
最新研究方向
在自然语言处理领域,大型语言模型(LLMs)中的性别偏见问题日益受到关注。GenderAlign数据集的最新研究方向集中在通过精细调整LLMs以更好地符合期望行为,从而有效缓解性别偏见。尽管私有LLMs在减少性别偏见方面取得了显著进展,但其对齐数据集并未公开。现有的公开对齐数据集HH-RLHF在一定程度上仍存在性别偏见。因此,GenderAlign数据集的开发旨在解决LLMs中的一系列性别偏见问题,通过包含8k单轮对话,每对对话配有一个‘选择’和一个‘拒绝’的响应,以展示较低的性别偏见和较高的质量。此外,GenderAlign数据集将性别偏见分类为四个主要类别,实验结果显示其在减少LLMs中的性别偏见方面的有效性。
相关研究论文
  • 1
    GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models华南理工大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GetData.IO - finance - Google Search

GetData.IO -

getdata.io 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录