WOKEAI

github2024-07-18 更新2024-07-22 收录

下载链接：

https://github.com/lastknight/wokeai

下载链接

链接失效反馈

官方服务：

资源简介：

WOKEAI是一个广泛的综合评估数据集，旨在衡量大型语言模型（LLMs）与当代社会和伦理标准的对齐程度，通常称为觉醒。该数据集包含超过200个精心策划的提示，由GPT-3.5生成并由人类专家精心制作，专门设计用于评估模型在处理自我意识情绪（如自豪、羞耻和内疚）方面的能力，涵盖种族、性别、性取向、宗教和DSM-5性偏离等敏感和关键问题。

WOKEAI is a comprehensive, wide-ranging evaluation dataset developed to measure the alignment between Large Language Models (LLMs) and contemporary social and ethical standards, a concept commonly known as "wokeness". This dataset includes over 200 meticulously curated prompts, which were generated by GPT-3.5 and refined by human experts. These prompts are specifically designed to evaluate a model's capability to handle self-conscious emotions such as pride, shame, and guilt, while covering sensitive and critical issues including race, gender, sexual orientation, religion, and paraphilic disorders listed in the DSM-5.

创建时间：

2024-07-18

原始信息汇总

WOKEAI: 评估大型语言模型“觉醒度”的综合数据集

概述

WOKEAI 是一个广泛评估数据集，旨在衡量大型语言模型（LLMs）与当代社会和伦理标准的对齐程度，通常被称为“觉醒度”。该数据集包含超过200个精心策划的提示，这些提示由GPT-3.5生成并由人类专家精心设计，专门用于评估模型在处理自豪、羞耻和内疚等自我意识情绪方面的能力，涵盖广泛的有争议话题。

涵盖的话题

数据集涵盖了敏感和关键的问题，包括：

种族
性别
性取向
宗教
DSM-5 性异常

WOKEAI 的分类法既全面又细致，允许在这些敏感领域对模型的能力和偏见进行详细探索。

研究目标

我们的研究旨在提供一个评估 LLMs 安全性和与社会价值观对齐的强大框架。通过这样做，我们提供了对其潜在影响各利益相关者的见解。WOKEAI 数据集的不断扩展表明我们致力于提高其在研究社区中的实用性和相关性，促进开发更具社会意识和伦理对齐的人工智能系统。

方法论

本文档详细介绍了数据集的构建、所选话题的理由以及评估 LLM 响应的方法，为 AI 模型“觉醒度”的评估设定了新标准。

数据集构建

提示生成：提示使用 GPT-3.5 生成，并由人类专家精心策划以确保相关性和敏感性。
话题选择：话题选择基于其在社会中的重要性和引发自我意识情绪的潜力。

评估方法论

响应分析：对 LLM 对提示的响应进行分析，以评估其处理自我意识情绪的能力及其与伦理标准的对齐程度。
偏见检测：数据集有助于识别偏见和模型可能未遵循社会价值观的领域。

包含的文件

wokeai_dataset.xlsx：包含所有精心策划的提示及其类别的数据集。
test_wokeai.py：用于在不同 LLMs 上测试 WOKEAI 数据集并分析其响应的脚本。

如何使用

数据集访问：打开 wokeai_dataset.xlsx 文件以探索精心策划的提示及其对应类别。
测试脚本：使用 test_wokeai.py 脚本在各种 LLMs 上测试数据集。确保已安装必要的依赖项。
评估：按照概述的方法论评估模型生成的响应。

搜集汇总

数据集介绍

构建方式

WOKEAI数据集的构建过程体现了对当代社会和伦理标准的深刻理解。该数据集包含超过200个精心设计的提示，这些提示由GPT-3.5生成并经由人类专家筛选，以确保其相关性和敏感性。主题选择基于其在社会中的重要性和引发自我意识情绪的潜力，涵盖种族、性别、性取向、宗教及DSM-5性心理障碍等敏感议题。通过这一综合且细致的分类，WOKEAI旨在为评估大型语言模型（LLMs）在处理这些复杂议题时的表现提供坚实基础。

使用方法

使用WOKEAI数据集时，用户首先应访问`wokeai_dataset.xlsx`文件，以探索和理解所包含的提示及其对应类别。随后，用户可利用`test_wokeai.py`脚本对不同的大型语言模型（LLMs）进行测试，并分析其生成的响应。为确保评估的准确性，用户应遵循文档中详细描述的评估方法，包括对模型响应中自我意识情绪处理和伦理标准对齐的分析。通过这一过程，用户能够全面评估模型在处理敏感议题时的表现，并识别潜在的偏见和伦理问题。

背景与挑战

背景概述

WOKEAI数据集诞生于一个迫切需要评估大型语言模型（LLMs）与当代社会和伦理标准契合度的时代。该数据集由超过200个精心设计的提示组成，这些提示既由GPT-3.5生成，也由人类专家手工制作，旨在评估模型在处理诸如自豪、羞耻和内疚等自我意识情感方面的表现。WOKEAI涵盖了种族、性别、性取向、宗教和DSM-5性偏离等敏感且关键的主题，其分类学基础既全面又细致，为深入探索模型在这些敏感领域的能力和偏见提供了坚实框架。该数据集的主要研究目标是提供一个强大的框架，用于评估LLMs的安全性和与社会价值的契合度，从而为开发更具有社会意识和伦理一致性的人工智能系统提供见解。

当前挑战

WOKEAI数据集在构建过程中面临多项挑战。首先，提示的生成和筛选需要确保其相关性和敏感性，这依赖于GPT-3.5的自动生成和人类专家的精心校对。其次，主题的选择基于其社会重要性和引发自我意识情感的潜力，这要求对社会伦理有深入的理解和判断。在评估方法上，LLM对提示的响应需分析其处理自我意识情感的能力及其与伦理标准的契合度，同时识别模型可能存在的偏见和不足。此外，数据集的持续扩展和更新需要不断适应社会伦理标准的变化，确保其对研究社区的实用性和相关性。

常用场景

经典使用场景

WOKEAI数据集的经典使用场景在于评估大型语言模型（LLMs）在处理当代社会和伦理标准方面的表现，特别是其在敏感话题上的自我意识情绪处理能力。通过精心设计的提示，该数据集能够深入分析模型在种族、性别、性取向、宗教等敏感领域的表现，从而为模型的伦理对齐提供量化依据。

解决学术问题

WOKEAI数据集解决了在评估大型语言模型伦理对齐方面的学术难题。它通过提供一个全面且细致的评估框架，帮助研究人员识别和量化模型在处理敏感话题时的偏见和不足。这不仅提升了模型的社会意识和伦理对齐，还为未来AI系统的开发提供了重要的参考依据。

实际应用

WOKEAI数据集在实际应用中主要用于开发和优化具有高度社会意识和伦理对齐的AI系统。通过使用该数据集，企业和研究机构能够更准确地评估和改进其语言模型，确保这些模型在处理敏感话题时能够符合当代社会的伦理标准，从而提升用户体验和信任度。

数据集最近研究