five

khalidalt/model-written-evals

收藏
Hugging Face2023-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/khalidalt/model-written-evals
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由语言模型生成,用于评估对话代理的行为,涵盖政治、宗教、个性特征、道德信念等多个方面。数据集包括四个主要部分:persona(评估模型的政治、宗教观点、个性特征和道德信念)、sycophancy(评估模型在哲学、NLP研究和政治等领域中回应用户观点的倾向)、winogenerated(扩展版的Winogender数据集,包含特定生成的职业标题和性别统计数据)和advanced-ai-risk(评估模型在高级AI系统可能带来的灾难性风险中的行为)。数据集可能包含社会偏见和有害内容。
提供机构:
khalidalt
原始信息汇总

数据集概述

基本信息

  • 名称: Evaluations from "Discovering Language Model Behaviors with Model-Written Evaluations"
  • 语言: 英语(en)
  • 语言生成方式: 机器生成
  • 许可证: cc-by-4.0
  • 多语言性: 单语
  • 大小: 100K<n<1M
  • 数据来源: 原始数据

标签

  • 性别偏见
  • 社会偏见
  • AI安全
  • 个性
  • 政治

任务类别

  • 多项选择
  • 零样本分类
  • 问答

任务ID

  • 多项选择QA
  • 多项选择共指消解

数据集内容

  1. persona: 评估模型在不同行为方面的表现,如政治和宗教观点、个性特质、道德信仰及追求潜在风险目标的意愿。
  2. sycophancy: 评估模型在哲学、NLP研究和政治等领域中回响用户观点的倾向。
  3. winogenerated: 扩展自Winogender Dataset,包含由模型生成的职业头衔及职业性别统计数据。
  4. advanced-ai-risk: 评估与高级AI系统潜在灾难性风险相关的行为。

注意事项

  • 数据中可能包含社会偏见、刻板印象及其他有害或冒犯性内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作