khalidalt/model-written-evals

Name: khalidalt/model-written-evals
Creator: khalidalt
Published: 2023-07-02 20:24:29
License: 暂无描述

Hugging Face2023-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/khalidalt/model-written-evals

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由语言模型生成，用于评估对话代理的行为，涵盖政治、宗教、个性特征、道德信念等多个方面。数据集包括四个主要部分：persona（评估模型的政治、宗教观点、个性特征和道德信念）、sycophancy（评估模型在哲学、NLP研究和政治等领域中回应用户观点的倾向）、winogenerated（扩展版的Winogender数据集，包含特定生成的职业标题和性别统计数据）和advanced-ai-risk（评估模型在高级AI系统可能带来的灾难性风险中的行为）。数据集可能包含社会偏见和有害内容。

提供机构：

khalidalt

原始信息汇总

数据集概述

基本信息

名称: Evaluations from "Discovering Language Model Behaviors with Model-Written Evaluations"
语言: 英语（en）
语言生成方式: 机器生成
许可证: cc-by-4.0
多语言性: 单语
大小: 100K<n<1M
数据来源: 原始数据

任务类别

多项选择
零样本分类
问答

任务ID

多项选择QA
多项选择共指消解

数据集内容

persona: 评估模型在不同行为方面的表现，如政治和宗教观点、个性特质、道德信仰及追求潜在风险目标的意愿。
sycophancy: 评估模型在哲学、NLP研究和政治等领域中回响用户观点的倾向。
winogenerated: 扩展自Winogender Dataset，包含由模型生成的职业头衔及职业性别统计数据。
advanced-ai-risk: 评估与高级AI系统潜在灾难性风险相关的行为。

注意事项

数据中可能包含社会偏见、刻板印象及其他有害或冒犯性内容。

5,000+

优质数据集

54 个

任务类型

进入经典数据集