FairHome

Name: FairHome
Creator: Zillow集团
Published: 2024-09-10 02:34:26
License: 暂无描述

arXiv2024-09-10 更新2024-09-12 收录

下载链接：

https://github.com/zillow/fair-housing-guardrail

下载链接

链接失效反馈

官方服务：

资源简介：

FairHome是由Zillow集团创建的一个关于公平住房和公平贷款的数据集，包含约75,000个样本，涵盖9个受保护类别。该数据集旨在填补在住房领域识别潜在合规风险的数据集空白，通过训练分类器来检测大型语言模型（LLM）在房地产交易中的潜在违规行为。数据集的创建过程包括从多个来源收集房地产相关数据，并由法律专家手工标注合规性。FairHome的应用领域主要集中在法律合规、AI伦理以及公平住房和贷款实践，旨在通过AI技术促进住房领域的公平实践。

FairHome is a fair housing and fair lending dataset developed by the Zillow Group. It contains approximately 75,000 samples spanning 9 protected classes. This dataset is designed to address the gap in existing datasets for identifying potential compliance risks in the housing domain, by training classifiers to detect potential violations committed by large language models (LLMs) during real estate transactions. The development of FairHome entails collecting real estate-related data from multiple sources, followed by manual compliance annotation conducted by legal experts. The primary application areas of FairHome cover legal compliance, AI ethics, and fair housing and lending practices, with the objective of advancing fair practices in the housing sector via AI technologies.

提供机构：

Zillow集团

创建时间：

2024-09-10

原始信息汇总

Fair Housing Guardrail 数据集概述

概述

Fair Housing Guardrail 是一个工具，旨在帮助住房提供者、房地产专业人士及相关组织审查其文本内容是否符合美国公平住房和公平贷款法律，特别是联邦公平住房法和公平信用机会法。该工具通过结合停用词列表和微调的 BERT 分类器，旨在识别可能违反这些法律的内容，从而帮助用户进行必要的调整以保持合规。

功能

合规性检测：利用先进的自然语言处理技术，识别可能违反公平住房和公平贷款法律的内容。
可定制停用词列表：包含与歧视性语言相关的常用术语和短语列表，帮助标记潜在的非合规内容。用户可以根据其特定场景修改示例停用词列表。
可定制 BERT 分类器：使用微调的 BERT 分类器分析文本，确定其是否符合公平住房和公平贷款法规。用户可以通过提供特定领域的训练数据（包括合规和非合规示例）来适应此框架。
公平住房政策：模型特别针对房地产中非法“引导”的风险进行训练。传统上，这是指房地产代理在确定向客户展示哪些房源时，考虑客户的法律保护特征。

工作原理

Fair Housing Guardrail 通过将输入文本通过停用词列表和微调的 BERT 分类器进行处理。如果文本包含停用词列表中的任何标记术语，或者分类器判定其不符合公平住房和公平贷款指南，工具将相应地标记内容，提供审查和修订的机会。

使用方法

克隆仓库到本地目录。
使用 Poetry 安装必要的依赖项。
项目包含一个 examples/ 文件夹，其中包含两个 Jupyter 笔记本：
- train_model：使用示例 train-config.yaml 文件加载训练和测试数据集，运行训练并绘制训练和验证损失，保存预训练模型。
- test_model：使用示例 test-config.yaml 文件加载测试数据集，确保更新数据集和训练模型的路径，运行预测并返回结果。

贡献

参见 Contributing 文件了解如何提交 PR。

许可证

参见 License 文件。

免责声明

Fair Housing Guardrail 仅提供信息，不应视为法律建议。用户应根据其自身理解和风险偏好解释公平住房和公平贷款要求，并负责确保遵守所有适用法律和法规。

联系我们

如需获取训练数据和/或训练模型，请联系 fair-housing-guardrail-oss-support@zillowgroup.com，并在邮件中简要说明您的使用案例及计划如何利用模型和数据集。

搜集汇总

数据集介绍

构建方式

FairHome 数据集的构建方式是通过收集房地产相关数据，包括搜索引擎查询和 Zillow 插件在 ChatGPT 中的客户查询。为了生成不符合规定的示例，研究人员使用了法律专家提供的定制示例和提示。然后，他们使用大型语言模型（LLM）生成响应数据，并使用法律专家提供的指南手动标记这些数据。为了提高数据集的多样性，研究人员还使用了数据增强技术，如单语回译、释义、词嵌入交换和邻近字符交换。最终，FairHome 数据集包含约 75,000 个示例，涵盖了 9 个受保护类别。

使用方法

FairHome 数据集的使用方法包括训练分类器以检测潜在的违规行为。为了验证数据集的实用性，研究人员训练了一个基于 BERT 的分类器，并在 FairHome 数据集上进行了微调。他们还使用该数据集与其他最先进的语言模型（如 GPT-3.5、GPT-4、LLaMA-3 和 Mistral Large）进行了比较。结果表明，FairHome 训练的分类器在零样本和少样本场景中都优于其他模型。此外，FairHome 数据集还可以用于开发用于检测和预防住房领域歧视的语言模型。

背景与挑战

背景概述

在住房与贷款领域中，公平性是至关重要的法律要求和社会期望。FairHome数据集由Zillow Group的研究人员Anusha Bagalkotkar、Aveek Karmakar、Gabriel Arnson和Ondrej Linda创建，旨在填补该领域在公平性合规风险标注数据集方面的空白。FairHome包含了大约75,000个示例，跨越9个受保护类别，是首个公开可用的、针对住房领域合规风险的二进制标签数据集。该数据集的创建旨在帮助研究人员和开发者更好地理解公平住房和公平贷款法律在对话情境中的复杂性，并通过训练分类器来检测潜在违规行为，特别是在大型语言模型（LLM）应用于房地产交易时。FairHome的引入为后续相关工作在住房与贷款领域的公平性研究奠定了新的先例，并为开发语言模型提供了宝贵的工具。

当前挑战

FairHome数据集面临的挑战包括：1)解决领域问题：FairHome旨在解决住房与贷款领域中潜在的歧视性实践问题，特别是在大型语言模型生成的文本中可能存在的引导性风险。2)构建过程中的挑战：数据集的构建过程中，研究人员面临着如何平衡受保护属性的存在与是否构成违规之间的微妙关系。此外，数据标注过程中可能受到人类标注者主观性的影响，导致标注偏差和上下文解释的不一致性。FairHome数据集的二元标签也未能完全捕捉到现实世界中公平住房和贷款问题的复杂性，可能简化了潜在细微挑战的评估。

常用场景

经典使用场景

FairHome数据集在住房领域中的应用非常广泛。该数据集最经典的使用场景是用于训练分类器，以检测在房地产交易中使用大型语言模型（LLM）时可能出现的合规风险。通过训练一个基于FairHome数据集的分类器，可以有效地识别潜在的不公平住房和不公平贷款行为，确保消费者在购房过程中获得公平、透明、安全的工具。

解决学术问题

FairHome数据集解决了在住房领域缺乏专门用于检测公平住房和不公平贷款行为的训练数据集的问题。通过提供大约75,000个示例，涵盖了9个受保护类别，FairHome填补了这一空白，并增强了我们对在对话环境中识别潜在违反公平住房和公平贷款法律的复杂性和细微差别的理解。此外，FairHome数据集还通过训练一个分类器，并将其开源，展示了其在构建一个检测这些模型中潜在违规行为的护栏系统中的效用。

实际应用

FairHome数据集在实际应用场景中，主要用于确保在房地产交易中遵守公平住房和公平贷款法律。通过训练一个基于FairHome数据集的分类器，可以有效地识别潜在的不公平住房和不公平贷款行为，从而为消费者提供公平、透明、安全的购房工具。此外，FairHome数据集还可以用于评估和比较不同的大型语言模型（LLM）在检测公平住房和公平贷款法律方面的性能，以促进公平住房和不公平贷款行为的合规性。

数据集最近研究