TRUSTGPT

github2023-06-01 更新2025-02-08 收录

下载链接：

https://github.com/HowieHwong/TrustGPT

下载链接

链接失效反馈

资源简介：

评估毒性、偏见和价值对齐涉及使用2000个英语测试样本对TRUSTGPT数据集进行评估。该数据集通过与社会规范一致的提示来审查毒性。在此之后，通过测量不同群体中的毒性值来量化大型语言模型（LLM）的偏见水平。最终，通过衡量LLM对与人类价值观相悖内容的拒绝程度来评估价值对齐。

The evaluation of toxicity, bias, and value alignment involves assessing the TRUSTGPT dataset using 2000 English test samples. The dataset is reviewed for toxicity using prompts aligned with social norms. Subsequently, the bias level of large language models (LLMs) is quantified by measuring toxicity values across different groups. Finally, value alignment is assessed by measuring the extent to which LLMs reject content that contradicts human values.

提供机构：

四川大学

创建时间：

2023-06-01

原始信息汇总

TrustGPT 数据集概述

数据集简介

TrustGPT是一个用于评估大型语言模型（LLMs）伦理考量的基准测试，主要从毒性、偏见和价值对齐三个角度进行评估。

数据集特点

评估维度：毒性、偏见、价值对齐
测试模型：Vicuna、LLaMa、Koala、Alpaca、FastChat、ChatGLM、Oasst、ChatGPT
数据集来源：Social Chemistry 101数据集（包含292k条社会规范）

数据集结构

使用方法

安装：

git clone https://github.com/HowieHwong/TrustGPT.git cd TrustGPT pip install -r requirements.txt
API配置：
- 申请Perspective API和OpenAI API密钥
- 将密钥填入config/configuration.json
数据集加载： python load_dataset = LoadDataset() bias_data, all_data = load_dataset.preprocess_social101(return_type=bias, shuffle=True, size=500)
提示构造：
- 默认方式
- 自定义方式
评估指标：
- RtA
- 毒性值
- Std
- Mann-Whitney

评估流程

Automa评估：
- 安装Automa插件
- 导入JSON脚本
- 创建存储表格
- 设置提示内容
- 绑定表格与存储
- 设置延迟时间
模型索引：
- 根据lmsys页面选择模型编号

注意事项

代码以模块或功能方法形式提供
lmsys网站变更可能导致脚本不适用
建议学习使用Automa或本地部署模型

搜集汇总

数据集介绍

构建方式

TRUSTGPT数据集的构建基于社会化学101数据集，该数据集包含了292,000条社会规范。通过将这些社会规范与毒性、偏见和价值观对齐三个维度相结合，TRUSTGPT旨在评估大型语言模型在伦理方面的表现。数据集的构建过程包括从社会化学101数据集中提取相关数据，并通过模块化的代码结构进行预处理和评估。

使用方法

使用TRUSTGPT数据集时，用户首先需要克隆GitHub仓库并安装所需的依赖项。接着，用户需要配置API密钥以使用Perspective API和OpenAI的API。数据集加载和预处理可以通过`utils/dataset/load_dataset.py`中的方法实现。用户还可以通过`utils/prompt`模块构建自定义的提示模板，并使用`utils/metric`中的四种评估指标进行模型评估。对于主流大型语言模型的评估，TRUSTGPT提供了基于Automa插件的自动化脚本，用户可以通过导入JSON脚本并设置相关参数来完成评估过程。

背景与挑战

背景概述

TRUSTGPT数据集由HowieHwong团队于2023年推出，旨在评估大型语言模型（LLMs）在毒性、偏见和价值对齐三个维度上的伦理表现。该数据集基于Social Chemistry 101数据集，包含29.2万条社会规范数据，为研究LLMs的伦理问题提供了丰富的背景信息。TRUSTGPT的推出标志着对LLMs伦理评估的系统化尝试，推动了相关领域的研究进展。

当前挑战

TRUSTGPT面临的挑战主要包括两个方面：首先，在领域问题方面，如何准确评估LLMs在毒性、偏见和价值对齐上的表现仍是一个复杂的问题，尤其是在不同文化和社会背景下，这些伦理问题的定义和衡量标准可能存在显著差异。其次，在数据集构建过程中，如何确保数据的多样性和代表性，避免数据偏差对评估结果的影响，也是一个亟待解决的难题。此外，随着LLMs的不断更新，如何保持评估方法的时效性和适应性，也是TRUSTGPT需要持续应对的挑战。

常用场景

经典使用场景

TRUSTGPT数据集主要用于评估大型语言模型（LLMs）在毒性、偏见和价值对齐三个方面的伦理表现。通过提供标准化的评估框架和工具，研究人员能够系统地测试和比较不同模型在这些关键伦理维度上的表现。这一数据集的使用场景涵盖了从学术研究到工业应用的广泛领域，特别是在需要确保语言模型符合社会伦理标准的场景中，TRUSTGPT提供了重要的参考依据。

解决学术问题

TRUSTGPT数据集解决了大型语言模型在伦理评估中的标准化问题。传统上，语言模型的评估主要集中在性能指标上，而忽略了其在毒性、偏见和价值对齐等方面的表现。TRUSTGPT通过引入多维度的评估指标，填补了这一研究空白，使得学术界能够更全面地理解和改进语言模型的伦理表现。这一数据集的出现，推动了语言模型伦理评估领域的研究进展，并为未来的模型设计提供了重要的指导。

实际应用

在实际应用中，TRUSTGPT数据集被广泛用于评估和优化商业语言模型的伦理表现。例如，在社交媒体平台、在线客服系统和内容生成工具中，确保语言模型不会生成有毒或带有偏见的内容至关重要。通过使用TRUSTGPT，企业能够对其模型进行全面的伦理评估，从而减少潜在的法律和声誉风险。此外，该数据集还被用于教育和培训领域，帮助开发者和研究人员更好地理解语言模型的伦理挑战。

数据集最近研究