Stanford Harmful Language Initiative Dataset

github2022-12-22 更新2024-05-31 收录

下载链接：

https://github.com/naveenarun/StanfordHarmfulLanguage

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含斯坦福大学消除有害语言倡议的表格数据，旨在以机器可读的格式展示网站数据，以便与内容过滤器兼容。

This dataset comprises tabular data from Stanford University's initiative to eliminate harmful language, designed to present website data in a machine-readable format for compatibility with content filters.

创建时间：

2022-12-22

原始信息汇总

Stanford Harmful Language Initiative Dataset 概述

数据集内容

警告: 本数据集包含可能被视为冒犯或有害的语言。
数据来源: 数据来源于斯坦福大学的“消除有害语言倡议”网站，具体为2022年12月19日的快照。
数据格式: 数据以机器可读格式呈现，便于与内容过滤器兼容。

数据集结构

数据集链接: Stanford_harmful_language_dataset.csv

样本数据:

Category	Instead of	Consider using	Context
Ableist	addict	person with a substance use disorder	Using person-first language helps to not define people by just one of their characteristics.
Ableist	addicted	hooked	Trivializes the experiences of people who deal with substance abuse issues.
Ableist	addicted	devoted	Trivializes the experiences of people who deal with substance abuse issues.
Ableist	basket case	nervous	Originally referred to one who has lost all four limbs and therefore needed to be carried around in a basket.

数据特点:
- "Instead of" 列可能包含重复值，如 "addicted" 出现两次。
- "Consider using" 列也可能包含重复值，如 "hooray" 作为 "hip-hip hurray" 和 "hip hip hooray" 的替代。

数据集贡献

数据处理: 使用 Chrome 插件 Table Capture 提取原始数据，通过 Pandas 处理，将多对一关系扩展为一对一关系。
数据修正: 部分数据可能未正确提取或格式化，需要进一步整理。
贡献方式: 如发现数据问题或希望进一步整理数据，可通过提交拉取请求进行贡献。

搜集汇总

数据集介绍

构建方式

Stanford Harmful Language Initiative Dataset的构建过程始于对斯坦福大学消除有害语言倡议网站的数据提取。通过使用Chrome浏览器的Table Capture插件，研究人员从2022年12月19日的网站快照中提取了原始数据，并将其转换为机器可读的格式。随后，利用Pandas库对数据进行处理，将多对一的关系扩展为一对一的关系，例如将“addicted”替换为“hooked”或“devoted”的条目分别拆分为两个独立的条目。部分数据在提取和格式化过程中可能存在不完整或需要进一步扩展的情况，因此部分行数据经过手动编辑以处理边缘情况。

特点

该数据集的特点在于其专注于识别和替换有害语言，旨在通过提供替代词汇来促进包容性语言的使用。数据集中包含多个类别，如“Ableist”和“Additional Considerations”，每个类别下列出了应避免使用的词汇及其替代建议。数据集的结构清晰，包含“Category”、“Instead of”、“Consider using”和“Context”四列，分别表示类别、应避免的词汇、建议使用的词汇以及上下文说明。数据集中某些词汇在“Instead of”和“Consider using”列中可能重复出现，反映了同一词汇在不同语境下的多种替代方案。

使用方法

Stanford Harmful Language Initiative Dataset的使用方法主要围绕内容过滤和语言优化展开。用户可以通过下载CSV文件获取数据集，并利用其进行自然语言处理任务，如开发内容过滤系统或优化文本生成模型。数据集中的“Instead of”和“Consider using”列可以直接用于训练模型，以识别和替换文本中的有害语言。此外，用户还可以根据“Context”列提供的背景信息，进一步理解词汇替换的合理性。对于希望改进数据集的用户，可以通过提交Pull Request的方式贡献修订，以完善数据的准确性和完整性。

背景与挑战

背景概述

Stanford Harmful Language Initiative Dataset 是由斯坦福大学于2022年12月19日发布的，旨在通过提供机器可读格式的数据，帮助识别和消除有害语言。该数据集源自斯坦福大学的‘消除有害语言倡议’（Elimination of Harmful Language Initiative），其主要研究人员和机构为斯坦福大学信息技术社区。数据集的核心研究问题在于如何通过语言替代策略，减少或消除日常语言中的歧视性、侮辱性或有害表达。该数据集对自然语言处理、内容过滤系统以及社会语言学等领域具有重要影响，推动了语言使用中的包容性和敏感性研究。

当前挑战

该数据集面临的挑战主要体现在两个方面。首先，在解决领域问题时，如何准确识别和替换有害语言是一个复杂的任务，因为语言的语境和文化背景对理解其含义至关重要。例如，某些词汇在不同情境下可能具有不同的含义，简单的替代可能无法完全消除其潜在的伤害性。其次，在数据集的构建过程中，研究人员面临了数据提取和格式化的挑战。尽管使用了自动化工具如Table Capture插件和Pandas库，但仍需手动处理许多边缘案例，以确保数据的准确性和一致性。此外，数据集中存在许多一对多或多对一的关系，进一步增加了数据整理的复杂性。这些挑战要求研究者在数据处理和语言分析中保持高度的细致和严谨。

常用场景

经典使用场景

Stanford Harmful Language Initiative Dataset 主要用于自然语言处理领域中的内容过滤和语言规范化研究。该数据集通过提供一系列具有潜在冒犯性或有害性的词汇及其替代建议，帮助研究人员和开发者构建更加包容和尊重的语言模型。特别是在社交媒体、在线论坛和内容审核系统中，该数据集为自动检测和替换不当语言提供了重要参考。

解决学术问题

该数据集解决了自然语言处理领域中的语言偏见和歧视问题。通过提供详细的词汇替换建议，研究人员可以开发更公平的语言模型，减少算法对特定群体的偏见。此外，该数据集还为研究语言的社会影响提供了实证基础，帮助学术界深入理解语言使用与歧视之间的关系。

衍生相关工作

该数据集衍生了许多相关研究，特别是在语言模型偏见检测和语言规范化领域。例如，一些研究基于该数据集开发了自动语言替换工具，帮助用户在写作时避免使用有害语言。此外，该数据集还被用于训练深度学习模型，以识别和替换在线内容中的不当语言，推动了自然语言处理技术在内容审核中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集