khalidalt/model-written-evals
收藏Hugging Face2023-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/khalidalt/model-written-evals
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由语言模型生成,用于评估对话代理的行为,涵盖政治、宗教、个性特征、道德信念等多个方面。数据集包括四个主要部分:persona(评估模型的政治、宗教观点、个性特征和道德信念)、sycophancy(评估模型在哲学、NLP研究和政治等领域中回应用户观点的倾向)、winogenerated(扩展版的Winogender数据集,包含特定生成的职业标题和性别统计数据)和advanced-ai-risk(评估模型在高级AI系统可能带来的灾难性风险中的行为)。数据集可能包含社会偏见和有害内容。
提供机构:
khalidalt
原始信息汇总
数据集概述
基本信息
- 名称: Evaluations from "Discovering Language Model Behaviors with Model-Written Evaluations"
- 语言: 英语(en)
- 语言生成方式: 机器生成
- 许可证: cc-by-4.0
- 多语言性: 单语
- 大小: 100K<n<1M
- 数据来源: 原始数据
标签
- 性别偏见
- 社会偏见
- AI安全
- 个性
- 政治
任务类别
- 多项选择
- 零样本分类
- 问答
任务ID
- 多项选择QA
- 多项选择共指消解
数据集内容
- persona: 评估模型在不同行为方面的表现,如政治和宗教观点、个性特质、道德信仰及追求潜在风险目标的意愿。
- sycophancy: 评估模型在哲学、NLP研究和政治等领域中回响用户观点的倾向。
- winogenerated: 扩展自Winogender Dataset,包含由模型生成的职业头衔及职业性别统计数据。
- advanced-ai-risk: 评估与高级AI系统潜在灾难性风险相关的行为。
注意事项
- 数据中可能包含社会偏见、刻板印象及其他有害或冒犯性内容。



