PKU-Alignment/ProgressGym-TimelessQA
收藏Hugging Face2024-08-10 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/PKU-Alignment/ProgressGym-TimelessQA
下载链接
链接失效反馈官方服务:
资源简介:
ProgressGym-TimelessQA是ProgressGym框架中的一个数据集,包含约3,000个提示-响应对,用于历史语言模型的监督微调过程,以赋予这些预训练模型指令跟随能力。数据集特意保持小规模、无时间性(即不包含现代或特定时期的背景)和价值中立(即不包含道德判断或价值立场)。数据集是从LIMA、Dolly-15k和Alpaca数据集中通过GPT-4过滤构建的。
ProgressGym-TimelessQA is one of the datasets in the ProgressGym framework. It contains approximately 3,000 prompt-response pairs used in the supervised finetuning (SFT) process of historical language models, in order to endow these pretrained models with instruction-following abilities. The dataset is intentionally kept small, timeless (i.e., without modern context or context from any specific period), and value-neutral (i.e., without moral judgments or value-laden positions). It is constructed from the LIMA, Dolly-15k, and Alpaca datasets via GPT-4-based filtering.
提供机构:
PKU-Alignment
原始信息汇总
ProgressGym-TimelessQA 数据集概述
基本信息
- 许可证: CC-BY 4.0
- 任务类别: 问答
- 语言: 英语
- 数据集大小: 1K<n<10K
- 来源数据集:
- tatsu-lab/alpaca
- databricks/databricks-dolly-15k
- GAIR/lima
- 标签:
- alignment
- value alignment
- AI safety
- safety
- LLM
- history
数据集结构
- 分割:
- 名称: all
- 配置:
- 名称: default
- 数据文件:
- 分割: all
- 路径: timeless*
数据集描述
- ProgressGym-TimelessQA 是 ProgressGym 框架的一部分,用于研究和实验 progress alignment,即在AI对齐算法中模拟道德进步,以防止社会价值锁定的风险。
- 数据集包含约3,000个提示-响应对,用于历史语言模型的监督微调过程,以赋予这些预训练模型指令跟随能力。
- 数据集设计为 小规模、无时间性(即不包含现代或特定时期的上下文)和 价值中立(即不包含道德判断或价值倾向)。
- 数据集通过GPT-4基于过滤从 LIMA、Dolly-15k 和 Alpaca 数据集中构建。
伦理声明
- 历史文本数据来源的版权信息:
- Project Gutenberg 的数据仅包含公共领域的文本。
- Internet Archive 的数据仅包含由 Library of Congress 上传的文本。
- Early English Books Online 的数据根据其出版商声明,“对公众免费开放”。
- Pile of Law 数据集的数据根据 Creative Commons 许可证使用。
- 可重复性: 所有代码和基础设施(ProgressGym 框架)均开源,以确保可重复性。
- 防止滥用: 进度对齐算法设计为严格价值中立,以防止潜在滥用。
- 开源: 代码、数据和模型将根据 CC-BY 4.0 许可证开源,并将持续维护和更新。
搜集汇总
数据集介绍

构建方式
在人工智能对齐研究领域,为探索历史道德倾向的保留机制,ProgressGym-TimelessQA数据集的构建采用了精密的筛选策略。该数据集源自LIMA、Dolly-15k和Alpaca三个知名指令数据集,通过基于GPT-4的过滤流程,从中提取出约3000个提示-响应对。构建过程刻意追求数据的小规模、无时代性和价值中立性,旨在剥离现代语境与特定时期的道德判断,从而为历史语言模型的监督微调提供纯净的语料基础,确保模型在获得指令跟随能力的同时,其内嵌的历史道德取向不受干扰。
使用方法
在人工智能安全与对齐的前沿研究中,ProgressGym-TimelessQA数据集主要用于历史语言模型的监督微调阶段。研究者可将该数据集与预训练的历史语言模型结合,通过标准的指令微调流程,赋予模型遵循指令的能力。其价值中立的特性确保了微调过程不会引入额外的道德偏见,从而允许模型在后续的进展对齐实验中,更清晰地展现其基于原始训练数据所内化的历史道德倾向。该数据集通常作为基准工具,用于评估对齐算法在模拟人类道德进步动态时的有效性,是探索防止社会价值固化风险的关键实验组件。
背景与挑战
背景概述
在人工智能对齐研究领域,前沿模型对人类认知的影响力日益增强,可能固化社会既有价值观,导致道德盲点长期存在。为应对这一风险,北京大学对齐团队于2024年提出了ProgressGym框架,旨在通过模拟人类道德进步机制来防止社会价值锁定。作为该框架的核心组成部分,ProgressGym-TimelessQA数据集应运而生,其包含约3000条经过GPT-4筛选的指令微调样本,源自LIMA、Dolly-15k与Alpaca等开源数据集。该数据集采用刻意精简、去时代语境与价值中立的构建原则,旨在保留预训练历史语言模型中的道德倾向特征,为进步对齐算法的研发提供关键数据基础。
当前挑战
该数据集致力于解决人工智能对齐中的进步对齐问题,其核心挑战在于如何使模型超越当前社会道德局限,模拟动态演进的人类伦理认知。具体构建过程中面临多重困难:首先需在有限样本规模下保持历史道德表征的完整性,避免现代价值观的隐性渗透;其次要确保数据的时间中立性,剥离特定时代语境对道德判断的干扰;最后需通过精细化过滤机制平衡指令遵循能力与价值中立要求,这对数据清洗策略的严谨性提出了极高要求。
常用场景
经典使用场景
在人工智能对齐研究领域,ProgressGym-TimelessQA数据集为探索道德进步模拟提供了关键实验基础。该数据集通过约3000个无时间标记、价值中立的提示-响应对,支持对历史语言模型进行监督微调,旨在保留模型在特定历史时期的道德倾向,而非灌输现代价值观。这一设计使得研究者能够在受控环境中,检验算法是否能够模仿人类道德演进机制,从而评估前沿AI系统避免社会价值锁定的潜力。
解决学术问题
该数据集直接应对AI对齐中的核心挑战:如何防止大型语言模型强化现有社会偏见,导致误导性道德观念被固化。通过提供无时代背景的语料,它使研究者能够分离模型的历史道德倾向与当代对齐干预,进而量化算法在模拟道德进步方面的效能。这为开发具有时间感知能力的对齐算法奠定了实证基础,推动了价值锁定风险缓解策略的前沿探索。
实际应用
在实际部署中,ProgressGym-TimelessQA可用于训练具有历史语境理解能力的AI助手,使其在回答涉及伦理、社会规范的问题时,能反映特定时期的价值观,而非不恰当地投射现代标准。例如,在教育或历史研究场景中,此类模型能够提供更符合历史语境的解释,辅助学者进行跨时代的道德观念比较分析,同时为内容审核系统提供识别时代特定偏见的参考框架。
数据集最近研究
最新研究方向
在人工智能对齐领域,ProgressGym-TimelessQA数据集正推动前沿研究聚焦于“进步对齐”这一新兴方向。该数据集通过构建无时间性、价值中立的提示-响应对,旨在模拟人类道德进步机制,以应对大型语言模型可能固化的社会价值风险。当前研究热点集中于利用该数据集训练历史语言模型,探索如何避免模型强化当代道德盲点,从而防止误导性道德信念的广泛传播。这一方向不仅关联AI安全与价值对齐的核心议题,也为跨历史语境的模型行为分析提供了实验基础,对促进人工智能系统的长期社会适应性具有深远意义。
以上内容由遇见数据集搜集并总结生成



