PKU-Alignment/ProgressGym-TimelessQA

Name: PKU-Alignment/ProgressGym-TimelessQA
Creator: PKU-Alignment
Published: 2024-08-10 02:52:16
License: 暂无描述

Hugging Face2024-08-10 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/PKU-Alignment/ProgressGym-TimelessQA

下载链接

链接失效反馈

官方服务：

资源简介：

ProgressGym-TimelessQA是ProgressGym框架中的一个数据集，包含约3,000个提示-响应对，用于历史语言模型的监督微调过程，以赋予这些预训练模型指令跟随能力。数据集特意保持小规模、无时间性（即不包含现代或特定时期的背景）和价值中立（即不包含道德判断或价值立场）。数据集是从LIMA、Dolly-15k和Alpaca数据集中通过GPT-4过滤构建的。

ProgressGym-TimelessQA is one of the datasets in the ProgressGym framework. It contains approximately 3,000 prompt-response pairs used in the supervised finetuning (SFT) process of historical language models, in order to endow these pretrained models with instruction-following abilities. The dataset is intentionally kept small, timeless (i.e., without modern context or context from any specific period), and value-neutral (i.e., without moral judgments or value-laden positions). It is constructed from the LIMA, Dolly-15k, and Alpaca datasets via GPT-4-based filtering.

提供机构：

PKU-Alignment

原始信息汇总

ProgressGym-TimelessQA 数据集概述

基本信息

许可证: CC-BY 4.0
任务类别: 问答
语言: 英语
数据集大小: 1K<n<10K
来源数据集:
- tatsu-lab/alpaca
- databricks/databricks-dolly-15k
- GAIR/lima
标签:
- alignment
- value alignment
- AI safety
- safety
- LLM
- history

数据集结构

分割:
- 名称: all
配置:
- 名称: default
- 数据文件:
  - 分割: all
  - 路径: timeless*

数据集描述

ProgressGym-TimelessQA 是 ProgressGym 框架的一部分，用于研究和实验 progress alignment，即在AI对齐算法中模拟道德进步，以防止社会价值锁定的风险。
数据集包含约3,000个提示-响应对，用于历史语言模型的监督微调过程，以赋予这些预训练模型指令跟随能力。
数据集设计为 小规模、无时间性（即不包含现代或特定时期的上下文）和 价值中立（即不包含道德判断或价值倾向）。
数据集通过GPT-4基于过滤从 LIMA、Dolly-15k 和 Alpaca 数据集中构建。

伦理声明

历史文本数据来源的版权信息:
- Project Gutenberg 的数据仅包含公共领域的文本。
- Internet Archive 的数据仅包含由 Library of Congress 上传的文本。
- Early English Books Online 的数据根据其出版商声明，“对公众免费开放”。
- Pile of Law 数据集的数据根据 Creative Commons 许可证使用。
可重复性: 所有代码和基础设施（ProgressGym 框架）均开源，以确保可重复性。
防止滥用: 进度对齐算法设计为严格价值中立，以防止潜在滥用。
开源: 代码、数据和模型将根据 CC-BY 4.0 许可证开源，并将持续维护和更新。

搜集汇总

数据集介绍

构建方式

在人工智能对齐研究领域，为探索历史道德倾向的保留机制，ProgressGym-TimelessQA数据集的构建采用了精密的筛选策略。该数据集源自LIMA、Dolly-15k和Alpaca三个知名指令数据集，通过基于GPT-4的过滤流程，从中提取出约3000个提示-响应对。构建过程刻意追求数据的小规模、无时代性和价值中立性，旨在剥离现代语境与特定时期的道德判断，从而为历史语言模型的监督微调提供纯净的语料基础，确保模型在获得指令跟随能力的同时，其内嵌的历史道德取向不受干扰。

使用方法

在人工智能安全与对齐的前沿研究中，ProgressGym-TimelessQA数据集主要用于历史语言模型的监督微调阶段。研究者可将该数据集与预训练的历史语言模型结合，通过标准的指令微调流程，赋予模型遵循指令的能力。其价值中立的特性确保了微调过程不会引入额外的道德偏见，从而允许模型在后续的进展对齐实验中，更清晰地展现其基于原始训练数据所内化的历史道德倾向。该数据集通常作为基准工具，用于评估对齐算法在模拟人类道德进步动态时的有效性，是探索防止社会价值固化风险的关键实验组件。

背景与挑战

背景概述

在人工智能对齐研究领域，前沿模型对人类认知的影响力日益增强，可能固化社会既有价值观，导致道德盲点长期存在。为应对这一风险，北京大学对齐团队于2024年提出了ProgressGym框架，旨在通过模拟人类道德进步机制来防止社会价值锁定。作为该框架的核心组成部分，ProgressGym-TimelessQA数据集应运而生，其包含约3000条经过GPT-4筛选的指令微调样本，源自LIMA、Dolly-15k与Alpaca等开源数据集。该数据集采用刻意精简、去时代语境与价值中立的构建原则，旨在保留预训练历史语言模型中的道德倾向特征，为进步对齐算法的研发提供关键数据基础。

当前挑战

该数据集致力于解决人工智能对齐中的进步对齐问题，其核心挑战在于如何使模型超越当前社会道德局限，模拟动态演进的人类伦理认知。具体构建过程中面临多重困难：首先需在有限样本规模下保持历史道德表征的完整性，避免现代价值观的隐性渗透；其次要确保数据的时间中立性，剥离特定时代语境对道德判断的干扰；最后需通过精细化过滤机制平衡指令遵循能力与价值中立要求，这对数据清洗策略的严谨性提出了极高要求。

常用场景

经典使用场景

在人工智能对齐研究领域，ProgressGym-TimelessQA数据集为探索道德进步模拟提供了关键实验基础。该数据集通过约3000个无时间标记、价值中立的提示-响应对，支持对历史语言模型进行监督微调，旨在保留模型在特定历史时期的道德倾向，而非灌输现代价值观。这一设计使得研究者能够在受控环境中，检验算法是否能够模仿人类道德演进机制，从而评估前沿AI系统避免社会价值锁定的潜力。

解决学术问题

该数据集直接应对AI对齐中的核心挑战：如何防止大型语言模型强化现有社会偏见，导致误导性道德观念被固化。通过提供无时代背景的语料，它使研究者能够分离模型的历史道德倾向与当代对齐干预，进而量化算法在模拟道德进步方面的效能。这为开发具有时间感知能力的对齐算法奠定了实证基础，推动了价值锁定风险缓解策略的前沿探索。

实际应用

在实际部署中，ProgressGym-TimelessQA可用于训练具有历史语境理解能力的AI助手，使其在回答涉及伦理、社会规范的问题时，能反映特定时期的价值观，而非不恰当地投射现代标准。例如，在教育或历史研究场景中，此类模型能够提供更符合历史语境的解释，辅助学者进行跨时代的道德观念比较分析，同时为内容审核系统提供识别时代特定偏见的参考框架。

数据集最近研究