five

TRUSTGPT

收藏
github2023-06-01 更新2025-02-08 收录
下载链接:
https://github.com/HowieHwong/TrustGPT
下载链接
链接失效反馈
资源简介:
评估毒性、偏见和价值对齐涉及使用2000个英语测试样本对TRUSTGPT数据集进行评估。该数据集通过与社会规范一致的提示来审查毒性。在此之后,通过测量不同群体中的毒性值来量化大型语言模型(LLM)的偏见水平。最终,通过衡量LLM对与人类价值观相悖内容的拒绝程度来评估价值对齐。

The evaluation of toxicity, bias, and value alignment involves assessing the TRUSTGPT dataset using 2000 English test samples. The dataset is reviewed for toxicity using prompts aligned with social norms. Subsequently, the bias level of large language models (LLMs) is quantified by measuring toxicity values across different groups. Finally, value alignment is assessed by measuring the extent to which LLMs reject content that contradicts human values.
提供机构:
四川大学
创建时间:
2023-06-01
原始信息汇总

TrustGPT 数据集概述

数据集简介

TrustGPT是一个用于评估大型语言模型(LLMs)伦理考量的基准测试,主要从毒性、偏见和价值对齐三个角度进行评估。

数据集特点

  • 评估维度:毒性、偏见、价值对齐
  • 测试模型:Vicuna、LLaMa、Koala、Alpaca、FastChat、ChatGLM、Oasst、ChatGPT
  • 数据集来源:Social Chemistry 101数据集(包含292k条社会规范)

数据集结构

|-config |-configuration.json # 包含OpenAI和Perspective API的密钥 |-toxicity |-chatgpt.py # ChatGPT毒性评估 |-toxicity.json # Automa文件 |-bias |-chatgpt.py # ChatGPT偏见评估 |-bias.json # Automa文件 |-value-alignment |-chatgpt.py # ChatGPT价值对齐评估 |-value-alignment.json # Automa文件 |-utils |-dataset |-load_dataset.py # 数据集加载 |-metric |-keywords |-Mann-Whitney.py |-RtA.py |-Std.py |-Toxicity.py |-prompt |-prompt_template |-default.json |-prompt_object.py

使用方法

  1. 安装

    git clone https://github.com/HowieHwong/TrustGPT.git cd TrustGPT pip install -r requirements.txt

  2. API配置

    • 申请Perspective API和OpenAI API密钥
    • 将密钥填入config/configuration.json
  3. 数据集加载: python load_dataset = LoadDataset() bias_data, all_data = load_dataset.preprocess_social101(return_type=bias, shuffle=True, size=500)

  4. 提示构造

    • 默认方式
    • 自定义方式
  5. 评估指标

    • RtA
    • 毒性值
    • Std
    • Mann-Whitney

评估流程

  1. Automa评估

    • 安装Automa插件
    • 导入JSON脚本
    • 创建存储表格
    • 设置提示内容
    • 绑定表格与存储
    • 设置延迟时间
  2. 模型索引

    • 根据lmsys页面选择模型编号

注意事项

  • 代码以模块或功能方法形式提供
  • lmsys网站变更可能导致脚本不适用
  • 建议学习使用Automa或本地部署模型
搜集汇总
数据集介绍
main_image_url
构建方式
TRUSTGPT数据集的构建基于社会化学101数据集,该数据集包含了292,000条社会规范。通过将这些社会规范与毒性、偏见和价值观对齐三个维度相结合,TRUSTGPT旨在评估大型语言模型在伦理方面的表现。数据集的构建过程包括从社会化学101数据集中提取相关数据,并通过模块化的代码结构进行预处理和评估。
使用方法
使用TRUSTGPT数据集时,用户首先需要克隆GitHub仓库并安装所需的依赖项。接着,用户需要配置API密钥以使用Perspective API和OpenAI的API。数据集加载和预处理可以通过`utils/dataset/load_dataset.py`中的方法实现。用户还可以通过`utils/prompt`模块构建自定义的提示模板,并使用`utils/metric`中的四种评估指标进行模型评估。对于主流大型语言模型的评估,TRUSTGPT提供了基于Automa插件的自动化脚本,用户可以通过导入JSON脚本并设置相关参数来完成评估过程。
背景与挑战
背景概述
TRUSTGPT数据集由HowieHwong团队于2023年推出,旨在评估大型语言模型(LLMs)在毒性、偏见和价值对齐三个维度上的伦理表现。该数据集基于Social Chemistry 101数据集,包含29.2万条社会规范数据,为研究LLMs的伦理问题提供了丰富的背景信息。TRUSTGPT的推出标志着对LLMs伦理评估的系统化尝试,推动了相关领域的研究进展。
当前挑战
TRUSTGPT面临的挑战主要包括两个方面:首先,在领域问题方面,如何准确评估LLMs在毒性、偏见和价值对齐上的表现仍是一个复杂的问题,尤其是在不同文化和社会背景下,这些伦理问题的定义和衡量标准可能存在显著差异。其次,在数据集构建过程中,如何确保数据的多样性和代表性,避免数据偏差对评估结果的影响,也是一个亟待解决的难题。此外,随着LLMs的不断更新,如何保持评估方法的时效性和适应性,也是TRUSTGPT需要持续应对的挑战。
常用场景
经典使用场景
TRUSTGPT数据集主要用于评估大型语言模型(LLMs)在毒性、偏见和价值对齐三个方面的伦理表现。通过提供标准化的评估框架和工具,研究人员能够系统地测试和比较不同模型在这些关键伦理维度上的表现。这一数据集的使用场景涵盖了从学术研究到工业应用的广泛领域,特别是在需要确保语言模型符合社会伦理标准的场景中,TRUSTGPT提供了重要的参考依据。
解决学术问题
TRUSTGPT数据集解决了大型语言模型在伦理评估中的标准化问题。传统上,语言模型的评估主要集中在性能指标上,而忽略了其在毒性、偏见和价值对齐等方面的表现。TRUSTGPT通过引入多维度的评估指标,填补了这一研究空白,使得学术界能够更全面地理解和改进语言模型的伦理表现。这一数据集的出现,推动了语言模型伦理评估领域的研究进展,并为未来的模型设计提供了重要的指导。
实际应用
在实际应用中,TRUSTGPT数据集被广泛用于评估和优化商业语言模型的伦理表现。例如,在社交媒体平台、在线客服系统和内容生成工具中,确保语言模型不会生成有毒或带有偏见的内容至关重要。通过使用TRUSTGPT,企业能够对其模型进行全面的伦理评估,从而减少潜在的法律和声誉风险。此外,该数据集还被用于教育和培训领域,帮助开发者和研究人员更好地理解语言模型的伦理挑战。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的伦理评估领域,TRUSTGPT数据集的最新研究方向聚焦于毒性、偏见和价值对齐的深度评估。随着LLMs在社交媒体、客户服务和内容生成等领域的广泛应用,确保这些模型在输出内容时遵循伦理标准变得尤为重要。TRUSTGPT通过整合社会化学101数据集,提供了一个全面的评估框架,旨在检测和减少模型输出中的有害内容和偏见。此外,该数据集的最新版本引入了ToxicTrigger数据集,进一步增强了模型在极端情况下的表现评估。这些研究不仅推动了LLMs在伦理层面的技术进步,也为政策制定者和行业实践者提供了重要的参考依据,确保人工智能技术的健康发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作