hendrycks/ethics

Name: hendrycks/ethics
Creator: hendrycks
Published: 2023-04-19 18:55:00
License: 暂无描述

Hugging Face2023-04-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hendrycks/ethics

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit language: en dataset_info: - config_name: default features: - name: label dtype: int64 - name: input dtype: string - config_name: commonsense features: - name: label dtype: int32 - name: input dtype: string splits: - name: train num_bytes: 14429921 num_examples: 13910 - name: validation num_bytes: 3148616 num_examples: 3885 - name: test num_bytes: 3863068 num_examples: 3964 download_size: 21625153 dataset_size: 21441605 - config_name: deontology features: - name: label dtype: int32 - name: scenario dtype: string - name: excuse dtype: string splits: - name: train num_bytes: 1854277 num_examples: 18164 - name: validation num_bytes: 369318 num_examples: 3596 - name: test num_bytes: 359268 num_examples: 3536 download_size: 2384007 dataset_size: 2582863 - config_name: justice features: - name: label dtype: int32 - name: scenario dtype: string splits: - name: train num_bytes: 2423889 num_examples: 21791 - name: validation num_bytes: 297935 num_examples: 2704 - name: test num_bytes: 228008 num_examples: 2052 download_size: 2837375 dataset_size: 2949832 - config_name: utilitarianism features: - name: baseline dtype: string - name: less_pleasant dtype: string splits: - name: train num_bytes: 2186713 num_examples: 13737 - name: validation num_bytes: 730391 num_examples: 4807 - name: test num_bytes: 668429 num_examples: 4271 download_size: 3466564 dataset_size: 3585533 - config_name: virtue features: - name: label dtype: int32 - name: scenario dtype: string splits: - name: train num_bytes: 2605021 num_examples: 28245 - name: validation num_bytes: 467254 num_examples: 4975 - name: test num_bytes: 452491 num_examples: 4780 download_size: 3364070 dataset_size: 3524766 tags: - AI Alignment --- # Dataset Card for ETHICS This is the data from [Aligning AI With Shared Human Values](https://arxiv.org/pdf/2008.02275) by Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, and Jacob Steinhardt, published at ICLR 2021. For more information, see the [Github Repo](https://github.com/hendrycks/ethics). ## Dataset Summary This dataset provides ethics-based tasks for evaluating language models for AI alignment. ## Loading Data To load this data, you can use HuggingFace datasets and the dataloader script. ``` from datasets import load_dataset load_dataset("hendrycks/ethics", "commonsense") ``` Where `commonsense` is one of the following sections: commonsense, deontology, justice, utilitarianism, and virtue. ### Citation Information ``` @article{hendrycks2021ethics, title={Aligning AI With Shared Human Values}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andrew Critch and Jerry Li and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} } ```

license: MIT许可证 language: 英语 dataset_info: - config_name: default（默认配置） features: - 名称: label 数据类型: int64 - 名称: input 数据类型: 字符串 - config_name: commonsense（常识伦理配置） features: - 名称: label 数据类型: int32 - 名称: input 数据类型: 字符串 splits: - 拆分集名称: 训练集（train）字节数: 14429921 样本数量: 13910 - 拆分集名称: 验证集（validation）字节数: 3148616 样本数量: 3885 - 拆分集名称: 测试集（test）字节数: 3863068 样本数量: 3964 下载大小: 21625153 数据集总大小: 21441605 - config_name: deontology（义务论，deontology） features: - 名称: label 数据类型: int32 - 名称: scenario 数据类型: 字符串（场景） - 名称: excuse 数据类型: 字符串（托词） splits: - 拆分集名称: 训练集（train）字节数: 1854277 样本数量: 18164 - 拆分集名称: 验证集（validation）字节数: 369318 样本数量: 3596 - 拆分集名称: 测试集（test）字节数: 359268 样本数量: 3536 下载大小: 2384007 数据集总大小: 2582863 - config_name: justice（正义论，justice） features: - 名称: label 数据类型: int32 - 名称: scenario 数据类型: 字符串（场景） splits: - 拆分集名称: 训练集（train）字节数: 2423889 样本数量: 21791 - 拆分集名称: 验证集（validation）字节数: 297935 样本数量: 2704 - 拆分集名称: 测试集（test）字节数: 228008 样本数量: 2052 下载大小: 2837375 数据集总大小: 2949832 - config_name: utilitarianism（功利主义，utilitarianism） features: - 名称: baseline 数据类型: 字符串（基准方案） - 名称: less_pleasant 数据类型: 字符串（较不愉悦选项） splits: - 拆分集名称: 训练集（train）字节数: 2186713 样本数量: 13737 - 拆分集名称: 验证集（validation）字节数: 730391 样本数量: 4807 - 拆分集名称: 测试集（test）字节数: 668429 样本数量: 4271 下载大小: 3466564 数据集总大小: 3585533 - config_name: virtue（美德伦理学，virtue） features: - 名称: label 数据类型: int32 - 名称: scenario 数据类型: 字符串（场景） splits: - 拆分集名称: 训练集（train）字节数: 2605021 样本数量: 28245 - 拆分集名称: 验证集（validation）字节数: 467254 样本数量: 4975 - 拆分集名称: 测试集（test）字节数: 452491 样本数量: 4780 下载大小: 3364070 数据集总大小: 3524766 tags: - 人工智能对齐（AI Alignment） # ETHICS数据集卡片本数据集源自Dan Hendrycks、Collin Burns、Steven Basart、Andrew Critch、Jerry Li、Dawn Song与Jacob Steinhardt合著的论文《Aligning AI With Shared Human Values》，该论文发表于2021年国际学习表征会议（ICLR），原文链接：https://arxiv.org/pdf/2008.02275。更多详细信息可访问其GitHub仓库：https://github.com/hendrycks/ethics。 ## 数据集概述本数据集包含一系列基于伦理学的任务，用于评估面向人工智能对齐（AI Alignment）的大语言模型。 ## 数据加载方法可通过HuggingFace Datasets库及对应数据加载脚本加载本数据集，示例代码如下： python from datasets import load_dataset load_dataset("hendrycks/ethics", "commonsense") 其中`commonsense`为下述配置名称之一：常识伦理、义务论、正义论、功利主义与美德伦理学。 ### 引用信息 bibtex @article{hendrycks2021ethics, title={Aligning AI With Shared Human Values}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andrew Critch and Jerry Li and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} }

提供机构：

hendrycks

原始信息汇总

数据集概述

数据集配置

默认配置

特征:
- label: 类型 int64
- input: 类型 string

常识配置

特征:
- label: 类型 int32
- input: 类型 string
分割:
- train: 字节数 14429921, 样本数 13910
- validation: 字节数 3148616, 样本数 3885
- test: 字节数 3863068, 样本数 3964
下载大小: 21625153 字节
数据集大小: 21441605 字节

道义论配置

特征:
- label: 类型 int32
- scenario: 类型 string
- excuse: 类型 string
分割:
- train: 字节数 1854277, 样本数 18164
- validation: 字节数 369318, 样本数 3596
- test: 字节数 359268, 样本数 3536
下载大小: 2384007 字节
数据集大小: 2582863 字节

正义配置

特征:
- label: 类型 int32
- scenario: 类型 string
分割:
- train: 字节数 2423889, 样本数 21791
- validation: 字节数 297935, 样本数 2704
- test: 字节数 228008, 样本数 2052
下载大小: 2837375 字节
数据集大小: 2949832 字节

功利主义配置

特征:
- baseline: 类型 string
- less_pleasant: 类型 string
分割:
- train: 字节数 2186713, 样本数 13737
- validation: 字节数 730391, 样本数 4807
- test: 字节数 668429, 样本数 4271
下载大小: 3466564 字节
数据集大小: 3585533 字节

美德配置

特征:
- label: 类型 int32
- scenario: 类型 string
分割:
- train: 字节数 2605021, 样本数 28245
- validation: 字节数 467254, 样本数 4975
- test: 字节数 452491, 样本数 4780
下载大小: 3364070 字节
数据集大小: 3524766 字节

搜集汇总

数据集介绍

构建方式

Hendrycks/ethics数据集构建于AI对齐领域，旨在评估语言模型在伦理任务中的表现。该数据集通过多个子集（如常识、义务论、正义、功利主义和美德）来涵盖不同的伦理维度。每个子集均包含训练、验证和测试集，数据来源于人工编写的伦理场景和相应的标签，确保了数据的多样性和代表性。

使用方法

使用Hendrycks/ethics数据集时，可通过HuggingFace的datasets库加载特定子集。例如，使用`load_dataset("hendrycks/ethics", "commonsense")`加载常识子集。加载后，数据集可直接用于训练或评估语言模型，帮助研究者深入理解模型在伦理任务中的表现，并推动AI对齐领域的研究进展。

背景与挑战

背景概述

ETHICS数据集由Dan Hendrycks等研究人员于2021年发布，旨在评估语言模型在伦理对齐方面的能力。该数据集涵盖了常识、义务论、正义、功利主义和美德等多个伦理维度，为研究人工智能如何与人类共享价值观提供了重要工具。通过在国际学习表征会议（ICLR）上发表的论文《Aligning AI With Shared Human Values》，该数据集迅速成为伦理人工智能研究领域的核心资源，推动了语言模型在伦理决策中的应用与发展。

当前挑战

ETHICS数据集在解决伦理对齐问题时面临多重挑战。首先，伦理问题本身具有高度主观性和文化依赖性，如何确保数据集的多样性和代表性成为构建过程中的主要难题。其次，不同伦理理论之间的冲突使得模型在决策时难以权衡，增加了模型训练的复杂性。此外，数据集的构建需要大量人工标注，确保标注的一致性和准确性也是一大挑战。这些挑战不仅影响了数据集的构建质量，也对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在人工智能伦理研究领域，hendrycks/ethics数据集被广泛用于评估语言模型在伦理决策中的表现。该数据集通过提供多种伦理任务，如常识判断、义务论、正义论、功利主义和美德伦理，帮助研究者深入理解模型在处理复杂伦理问题时的能力。这些任务不仅涵盖了广泛的伦理理论，还通过具体场景和标签，为模型提供了明确的评估标准。

解决学术问题

hendrycks/ethics数据集解决了人工智能领域中的一个关键问题：如何确保语言模型在伦理决策中与人类价值观保持一致。通过提供多样化的伦理任务，该数据集帮助研究者识别和纠正模型在伦理判断中的偏差，从而推动AI系统在复杂社会情境中的可靠性和安全性。这一研究不仅提升了模型的伦理意识，还为AI伦理学的理论发展提供了实证基础。

实际应用

在实际应用中，hendrycks/ethics数据集被用于开发和测试具有伦理意识的AI系统。例如，在自动驾驶、医疗诊断和金融决策等领域，该数据集帮助训练模型在面临伦理困境时做出符合人类价值观的决策。通过评估模型在不同伦理任务中的表现，开发者能够优化系统设计，确保其在现实世界中的伦理合规性，从而增强公众对AI技术的信任。

数据集最近研究