Open Collider Dataset

github2026-05-16 更新2026-05-20 收录

下载链接：

https://github.com/CL-ML/open-collider-research

下载链接

链接失效反馈

官方服务：

资源简介：

Open Collider数据集是一个用于测试结构远距离领域碰撞对LLM生成想法影响的实验数据集，包含12个真实世界项目的生成想法、控制条件、盲审LLM法官判决和缓存嵌入，用于评估原创性和距离基线。

创建时间：

2026-05-10

原始信息汇总

Open Collider · Research 数据集概述

基本信息

数据集地址：https://github.com/CL-ML/open-collider-research
创建者：Cédric Lion（Twitter: @cdriclion，所属机构：Oparine）
数据集类型：实验性研究方法及生成数据，用于测试结构上相距较远的领域碰撞（bisociation）是否能推动LLM生成远离默认提示基线的创意想法，以及盲审LLM裁判是否更青睐这些想法的原创性。
许可证：
- 代码（script/）：MIT
- 内容（数据、文档、图表、想法、裁判产物）：CC BY 4.0

核心实验设计

方法：Open Collider 是一种开源方法，将 Koestler 的 bisociation 理论（1964）操作化，用于 LLM 创意生成。该方法不要求模型“更有创意”，而是向提示中注入结构上相距较远的知识领域，迫使任务简述与这些领域发生显式碰撞。
实验规模：12个真实项目，4个条件，约23,000个生成想法，4,320个盲审LLM裁判判决。
条件设置：
- 条件A：OC bisociation（实验组）
- 条件B：默认提示基线（控制组之一）
- 条件C：仅指令“be original”
- 条件D：长度控制的深度简述
裁判模型：三个盲审裁判（Claude Opus 4.6、GPT-4o、Gemini 2.5），在原创性维度上对想法进行强制选择判决。

主要结果

距离指标：条件A（OC bisociation）在 nn_in_B 距离上比条件B自身距基线云更远。12/12个项目，p = .0002（基于 BGE-large 和 e5-large-v2 两种嵌入）。
裁判偏好：三个盲审裁判在 10/12个项目 中偏好条件A的原创性（平均A占比62%，p = .019）。
伪证检验：仅指令“be original”（条件C）和长度控制的深度简述（条件D）对输出的移动程度明显小于条件A。条件C在BGE上的效果约为条件A的1/13，条件D约为条件A的1/4。

数据内容与结构

路径	用途
`BLOG_POST.md`	面向公众的撰写：理论、结果、示例
`methodology-and-results.md`	协议、统计结果、局限性
`OC_data/`	条件A（OC bisociation）源生成结果，按项目×批次组织
`conditions_baseline/`	条件B、C、D（控制组）源生成结果
`curation/`	策展人提示、原始响应、每个项目×条件的Top策展列表
`judge_results/`	216个盲审强制选择裁判单元格（12个项目 × 3个对比 × 2个轴 × 3个裁判）
`embeddings_cache_bge/`	缓存的BGE-large嵌入，每个项目一个 `.npz` 文件
`embeddings_cache_e5/`	缓存的e5-large-v2嵌入，用于交叉嵌入敏感性分析
`script/`	复现（`reproduce_results.py`）、再生、裁判、可视化脚本
`assets/diagrams/`	博客中使用的概念图
`assets/results/`	统计图表（森林图、裁判热图）

数据可用性与完整性

已覆盖：12个项目中的9个项目完整发布源文本、嵌入、裁判标签和策展索引。
已编辑：3个项目（mood_journal、mood_journal_promotion、online_store）因客户保密要求，源简述和生成想法被移除，仅保留缓存的嵌入、每对裁判胜者标签和策展索引列表，所有自由文本字段替换为 [REDACTED]。
完整性检查：通过运行 python3 script/reproduce_results.py --check 可验证完整面板（12个项目，216/216个单元格均达到n=20，无泄漏），该检查仅读取胜者标签和嵌入向量，不涉及已编辑文本。

语料性质与注意事项

数据集中的每一个想法均为原始LLM输出（Claude Sonnet 4，详见方法 §7）。
想法内嵌的引用（判例参考、法规编号、日期、命名研究、罚款金额）均由模型生成，未经核实。
本语料作为LLM输出的研究产物发布，不可作为法律、金融、医疗或专业咨询建议。

引用格式

Cédric Lion (2026). Open Collider: Methodology and Dataset for Bisociation-Based Idea Generation. https://github.com/CL-ML/open-collider-research

搜集汇总

数据集介绍

构建方式

Open Collider数据集基于科斯特勒的‘异质联想’理论构建，旨在通过引入结构上相去甚远的知识领域，迫使语言模型在给定任务与外来领域之间产生显式碰撞，从而生成偏离默认提示分布的创意。数据集涵盖12个真实世界项目，每个项目设置四种条件：条件A为Open Collider异质联想，条件B为无干预基线，条件C为仅指令‘更有创意’，条件D为深度引导基线。通过对比这些条件下生成的大量创意，量化距离与原创性差异。所有数据来自Claude Sonnet 4的原始输出，经盲审LLM评判偏好。

特点

该数据集的核心特点在于其实证验证的严谨性：在12个项目、约2.3万条创意、4320次盲审判决中，条件A在所有项目上均显著偏离基线分布，且三个独立评审模型（Claude Opus 4.6、GPT-4o、Gemini 2.5）偏好其原创性。距离效应在BGE-large和e5-large-v2两种嵌入模型上均得到稳健验证，而控制条件的效果远弱于异质联想。此外，数据集的完整性检查脚本可无API调用地复现全部统计结果，确保透明度与可复现性。

使用方法

用户可通过运行完整性检查脚本复现核心结果，无需额外API调用或GPU资源。数据集目录包含各条件生成的原始创意、评审结果、嵌入缓存及脚本工具。对于9个可公开项目，用户可利用生成脚本重现完整的数据生成流程，或使用可视化工具分析距离与偏好分布。另有3个涉及客户保密协议的项目仅提供嵌入向量与标签，但仍支持统计验证。建议用户查阅方法论文档以理解实验协议与统计细节，避免将数据中的模型生成内容作为专业建议使用。

背景与挑战

背景概述

Open Collider Dataset由Cédric Lion及其所在的Oparine研究团队于2026年创建，旨在探索大型语言模型（LLM）在创意生成中的边界。该数据集基于Koestler的“双联想”（bisociation）创造力理论，通过将结构上相距遥远的知识领域强行注入提示词，迫使LLM在领域碰撞中生成更远离默认分布的想法。研究核心问题在于：结构化领域碰撞是否能显著提升LLM输出想法的原创性，而非依赖指令式“更有创意”。数据集包含12个真实项目、约2.3万个生成想法及4320次盲审判断，其成果为LLM创意生成提供了可复现的实证范式，对人工智能创造力研究领域具有重要影响力。

当前挑战

该数据集面临的挑战包括：首先，领域问题层面，LLM在默认提示下易陷入“人工集体思维”（Artificial Hivemind），生成分布高度趋同的想法，缺乏真正的原创性，而现有“更创意”指令效果微弱（约为双联想方法的1/13）。其次，构建过程中，数据集的实证设计需精确控制四种条件（双联想、基线、指令控制、长度控制）的对比，确保距离度量与人类盲审的可信度。同时，部分项目涉及客户机密，导致原始文本无法公开，仅能通过嵌入向量与评委标签验证完整性，限制了端到端复现。此外，所有想法均为LLM原始输出，未经事实核查，不能作为专业建议使用，这要求研究者在方法论研究中谨慎处理输出内容。

常用场景

经典使用场景

在人工智能与计算创造力的交叉领域，Open Collider Dataset为验证跨域联想法（bisociation）在大型语言模型创意生成中的效用提供了标准化实验平台。该数据集涵盖12个真实项目，在约23,000条生成创意基础上，通过4种实验条件（A：OC联想法；B：默认提示基线；C：仅指令“要有创意”；D：深度简报）的系统对比，量化了结构性远域碰撞如何将LLM输出推向远离默认分布的创造性地带。研究者可借助BGE-large与e5-large-v2两种嵌入模型测量输出间的距离指标（nn_in_B），并通过Claude Opus 4.6、GPT-4o和Gemini 2.5三位独立盲审者对原始性的偏好评分，构建严谨的假设检验框架。该数据集特别适合用于剖析LLM在缺乏显式创新指令时陷入“人工蜂群思维”的根本原因，以及探究结构化的知识碰撞是否能够系统地突破模型的内禀生成瓶颈。

解决学术问题

该数据集精准回应了计算创造力研究中的一个核心争议：语言模型是否能够通过机制化干预生成真正原创性的内容，而非停留在对训练数据的统计重排。传统研究往往依赖于“让人工智能更富创造力”这类模糊提示，但缺乏可复现的量化方法。Open Collider Dataset通过引入Koestler的联想法理论，将跨域远距碰撞操作化为可编程的提示结构，首次在大规模控制实验中证实了结构性碰撞对创意原创性的显著提升作用：全部12个项目中A条件到B条件的平均距离显著高于B条件自身的内聚离散度（p=0.0002），且盲审者偏好A条件创意的比例达到62%（p=0.019）。这为破解LLM生成内容的趋同性问题提供了可复用的方法论基石，同时揭示了指令提示（C条件）和深度简报（D条件）效果分别仅为A条件的约1/13和1/4，从而鲜明地论证了仅靠语义密度或任务复杂度无法替代认知距离的催化作用。

衍生相关工作

围绕Open Collider Dataset已形成若干衍生研究脉络，首要方向是对联法提示机制的解耦分析，即探究不同距离的域配对（如法律× 音乐、游戏 × 城市规划）对原创性的非线性调节效应。其次，该数据集为盲审者偏好的异构性研究提供了丰富语料，促使学者审视不同大型语言模型（Claude、GPT、Gemini）在执行原创性判别时的内部表征差异。基于该数据集的跨嵌入模型距离敏感性分析（BGE-large与e5-large-v2的对比结果均在12/12个项目上保持显著）已推动新的工作聚焦于嵌入空间几何结构对创造力量化的影响。代表性后续工作包括：利用该数据集训练用于预测创意原创得分的回归模型；将OC的联法引擎集成到模块化创意工坊系统（如参照其开放管道代码路径 github.com/CL-ML/open-collider）中；在更广的生成任务类型（故事写作、代码构思）中复现跨域碰撞效应。这些工作共同丰富了“计算联想主义”的理论实证体系，并持续扩展语言模型作为创意助手的认知边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集