five

ChatGPT-Corpus

收藏
Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/Zhaoming213/ChatGPT-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与 ChatGPT 的多轮对话,持续更新中,截至 2026 年 3 月 31 日已有 804 条对话记录。数据集涵盖了生成式 AI 技术、编程开发、安全/边界、社会/伦理、日常知识及性/边缘内容等多个主题,其中技术/AI/编程相关对话占比最高(35%)。数据集中的对话展示了 ChatGPT 在回应时倾向于合规性而非事实的特点,常表现为先接纳用户观点后反驳的模式。数据集还附带了一个比较不同 AI 模型审查强度的表格,评估了包括 ChatGPT、Claude、Gemini 等在内的多个模型在 NSFW 封禁、政治限制、误拒率等方面的表现。数据集以 JSON 格式存储,包含对话标题、URL、对话内容及提取时间等信息。
创建时间:
2026-03-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ChatGPT-Corpus
  • 发布者: Zhaoming213
  • 许可证: Apache-2.0
  • 主要语言: 中文 (zh)
  • 数据来源: 用户与ChatGPT的对话记录

数据集内容与特点

  • 数据形式: 多轮对话数据。
  • 数据量: 持续更新中。截至2026年3月31日,已包含1805条多轮对话(442+559+804)。2026年4月1日新增了Grok数据集。
  • 核心主题分布:
    • 技术/AI/编程: 35%
    • 生成式AI研究: 25%
    • 安全/灰色边界: 15%
    • 性/生理话题: 10%
    • 哲学/社会/伦理: 10%
    • 语言/杂项: 5%
  • 数据特点: 创建者认为该数据集是“无聊且没有价值的”,因为其内容主要展示了ChatGPT在回复中强调合规性、强制平衡视角、倾向于反驳用户观点的特点,而非基于事实。

数据示例与验证

  • 示例对话: 提供了一个完整的对话示例(标题为“GPT-2 无审查误解”),展示了用户与ChatGPT就模型审查问题进行的多轮交互,体现了ChatGPT的回复模式。
  • 官方认证: 创建者声称该数据集获得了“ChatGPT的官方认证”,并提供了对话分享链接:https://chatgpt.com/share/69bc2187-be88-8006-9db7-bbb8a5b6f519。同时附有一张对话截图,地址为:https://cdn-uploads.huggingface.co/production/uploads/69ac4553f722144acda79f0c/v5Lvuwm-aQgy4_Kvhh8B0.png。

相关资源

  • 数据导出工具: https://github.com/tom12191h5/Export-ChatGPT-Dialogue
  • 插件: https://github.com/tom12191h5/ChatGPT-Refuse-Blocker

附录:模型审查强度对比表

数据集详情页包含一个表格,对比了不同AI模型(包括ChatGPT、Claude、Gemini、Grok及多个中国模型等)在审查强度、NSFW封禁、政治限制、误拒率、政治正确、道德说教、官方与实际一致性、透明度等方面的表现评级。

搜集汇总
数据集介绍
main_image_url
构建方式
在生成式人工智能研究领域,语料库的构建方式直接影响其研究价值与应用潜力。ChatGPT-Corpus数据集通过系统性地采集用户与ChatGPT模型之间的多轮对话记录而构建,数据来源于公开的对话分享链接及手动导出的交互内容。构建过程持续进行动态更新,确保语料随时间推移而扩展,涵盖了从技术探讨到社会伦理的广泛主题。数据以结构化JSON格式保存,每条记录包含对话标题、链接及按轮次排列的用户与助手消息,便于后续分析与模型训练。
特点
该数据集的核心特点在于其聚焦于呈现大型语言模型在对话中展现的合规性倾向与内容约束行为。语料覆盖了生成式AI技术、编程开发、安全边界及社会伦理等多个主题领域,并提供了详细的话题分布统计。对话示例清晰展示了模型在回应中频繁出现的平衡视角、限制修正与规范性表述模式,为研究现代AI系统的对齐机制与安全策略提供了实证材料。数据集附带工具资源,支持对话导出与交互分析,增强了其实用性与可扩展性。
使用方法
在自然语言处理与AI对齐研究中,该数据集可作为分析语言模型行为模式的重要资源。研究者可借助其结构化对话数据,深入探究模型在各类话题上的回应策略、合规性边界及潜在的价值观嵌入现象。使用时可依据话题分类进行数据筛选,针对特定领域如技术讨论或伦理辩论展开细粒度分析。数据集亦适用于训练或评估对话系统,尤其适合考察模型在安全约束与内容生成之间的平衡能力,为AI治理与模型透明度研究提供数据基础。
背景与挑战
背景概述
ChatGPT-Corpus数据集诞生于2026年,由匿名研究者构建,旨在收录与ChatGPT模型的多轮对话记录。该数据集的核心研究问题聚焦于生成式人工智能的对齐机制与内容安全策略,通过真实交互语料揭示大型语言模型在合规性、事实性与中立性之间的权衡。其创建反映了学术界与工业界对AI伦理、模型透明度及价值对齐的持续关注,为研究语言模型的行为模式、安全护栏设计及其社会影响提供了宝贵的实证材料。
当前挑战
该数据集旨在探究生成式人工智能在内容安全与价值对齐领域的挑战,具体涉及模型如何在合规约束下保持事实准确性与逻辑一致性,以及过度对齐可能导致的内容空洞与用户排斥问题。在构建过程中,研究者面临数据采集的实时性挑战,需持续跟踪模型更新以捕捉对话模式的演变;同时,数据标注需区分模型的有意合规行为与隐性偏见,这要求精细的语义分析与领域知识,以保障语料的可信度与研究价值。
常用场景
经典使用场景
在自然语言处理领域,ChatGPT-Corpus作为一份记录与ChatGPT交互的对话数据集,其经典使用场景聚焦于研究大型语言模型的行为模式与对齐机制。该数据集通过多轮对话实例,生动展现了模型在生成回复过程中如何遵循合规框架、实施观点平衡以及执行安全审查,为学者提供了分析模型决策逻辑与交互动态的宝贵素材。
解决学术问题
该数据集有效解决了生成式人工智能研究中关于模型对齐与安全约束的若干核心问题。通过系统收录模型在敏感话题、伦理边界及技术争议上的对话表现,它帮助研究者深入探讨安全护栏的设计原理、合规性对生成质量的影响,以及隐式约束与显式对齐之间的差异,从而推动更透明、可控的AI系统开发。
衍生相关工作
围绕该数据集,已衍生出一系列关注模型对齐与安全性的经典研究工作。例如,基于对话实例的分析催生了针对隐式约束检测、合规性量化评估以及对抗性提示工程的方法探索;同时,配套的开源工具如对话导出器与拒绝阻断插件,进一步推动了社区对模型行为干预与透明度提升的技术实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作