five

midah/license-deferral-case-studies

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/midah/license-deferral-case-studies
下载链接
链接失效反馈
官方服务:
资源简介:
一个关于AI供应链许可延迟分析的小型结构化数据集,包含案例研究记录、成对许可排序裁决和基于特征的严格包含分类,覆盖了747个SPDX-plus-AI许可证的全面分析。数据集还提供了对供应链边缘的许可义务传播的注释,包括如何将上游许可义务传播到下游工件(如携带、丢弃、未披露、添加、冲突或在不同轴上独立)。

A small structured dataset of case-study records for the license-deferral analysis of AI supply chains, plus pairwise license-ordering verdicts and feature-grounded strict-containment classifications over the full 747-license SPDX-plus-AI corpus. The dataset also provides annotations on how upstream license obligations propagate to the downstream artifact (carried forward, dropped, not disclosed, added on top, in conflict, or independent on different axes).
提供机构:
midah
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过系统化梳理人工智能供应链中的许可证延迟现象构建而成。研究团队首先基于现有供应链框架(如Ecosystem Graphs与Model Openness Framework)建立拓扑结构,随后从HuggingFace平台精选16个代表性模型案例,涵盖不同许可证家族及典型现象,并利用GPT-4o-mini对全部747个SPDX-plus-AI许可证进行两两排序,辅以Nordlander十特征向量进行严格的限制集包含关系分类,最终形成了包含许可证排序裁决、特征基准及案例记录的多层次结构化数据。
特点
数据集的核心特色在于其创新的许可证延迟边缘类型学,每条供应链边缘均被标注上游许可证义务的传播方式(继承、丢弃、未披露等)。研究发现80%的供应链边缘存在许可证信息披露不足问题,且AI许可证系列(如llama)的传播比例高于传统软件许可证,这一反直觉发现挑战了既有认知。数据集还揭示了GPT-4o-mini在278631个许可证对中存在83%的定向偏好偏差,为研究大模型裁决偏见提供了宝贵对照样本。
使用方法
用户可通过运行配套代码仓库中的Python脚本复现全部记录与分析结果:执行`scripts/data/case_studies.py all`重建案例记录,使用`run_pairwise_spdx.py`结合指定LLM模型和提示模板生成许可证排序裁决,运行`feature_strict_containment.py`获取基于特征的基准分类。所有HTTP请求均实现本地缓存以确保可重复性。数据以JSON格式存储,支持直接加载进行供应链合规分析、许可证兼容性研究或作为验证大模型排序能力的基准测试集。
背景与挑战
背景概述
该数据集由Hamidah Oderinwale于2026年创建,聚焦于人工智能供应链中许可证延期问题的系统性研究。在人工智能模型与开源组件深度融合的背景下,许可证兼容性评估面临复杂性,现有框架多关注节点级合规性,而忽视了许可证义务在供应链各环节的传播机制。本研究构建了包含16个案例研究的结构化数据集,覆盖99条供应链边,并基于带有843条款的SPDX-plus-AI许可证语料库,提出了许可证延期边分类法。通过特征基线与大语言模型(如gpt-4o-mini)生成的成对排序判定,揭示了传播沉默是主导现象(占80%),且AI许可证族的传播率高于传统软件许可证族,为理解人工智能供应链中的许可证义务动态提供了重要数据支撑。
当前挑战
该数据集面临的挑战主要体现在两个层面:其一,在领域问题层面,人工智能供应链中许可证兼容性判定本质上是一个偏序归约问题,现有方法难以处理包含权限、义务、互斥条款等多维特征的扩展许可证语料,且大语言模型在生成成对许可判定时表现出显著方向性偏差(83%的判定为A < B),导致权威性偏序结构难以建立。其二,在数据集构建过程中,案例研究覆盖了Hugging Face平台上的模型与平台,但许可证延期数据的获取依赖上游工件许可证的自披露,80%的供应链边因披露不足而被标记为‘未公开’状态,使得传播分析受限于信息可用性。此外,特征基线与LLM判定之间在不可比分类上存在系统性差异(特征基线识别出6.44%的正交对,而LLM从未输出不可比结果),提示评估方法需进一步校准。
常用场景
经典使用场景
在大规模人工智能供应链日益复杂、许可证合规性备受关注的背景下,license-deferral-case-studies 数据集为分析AI供应链中许可证义务的传递与延迟现象提供了结构化案例研究框架。该数据集的核心使用场景在于对AI模型及其上下游组件的许可证传播路径进行系统化标注与分类,通过构建包含许可证族系分层抽样与典型现象编辑选择的模型样本库,结合99条供应链边的详细记录,揭示上游许可证信息不透明导致义务传递失效的高达80%的沉默边比例,从而为许可证兼容性分析提供了精细化的数据支撑。
衍生相关工作
该数据集的工作本身构建于多项经典框架之上,其衍生影响体现在多个方向。首先,数据集的许可证延迟边分类法可直接融入Ecosystem Graphs等供应链图谱框架,增强其许可证维度分析能力。其次,基于Nordlander十特征模型生成的严格包含关系基线,为未来设计更精细的许可证特征提取与自动分类算法提供了黄金标准。值得注意的是,数据集揭示了GPT-4o-mini在成对许可证排序中的方向性偏差,这一发现催生了针对LLM许可证理解能力评估的新研究路径,已有研究者计划采用更强模型在更大样本上验证并校正此类偏差,从而推动AI辅助合规分析的可靠性提升。
数据集最近研究
最新研究方向
随着人工智能供应链的日益复杂,许可证义务的传播与合规性分析成为前沿热点。该数据集聚焦于"许可证递延"(license deferral)现象,通过16个案例研究及278,631对许可证的成对比较,揭示了AI供应链中80%的边缘存在上游许可证信息不透明的问题(即"沉默"边缘)。尤为值得关注的是,AI特定许可证族(如Llama、OpenRAIL)的传播率反而高于传统开源软件许可证(如Apache、MIT),这一反直觉的发现挑战了业界对AI许可证成熟度的固有认知。此外,研究通过GPT-4o-mini大规模生成许可证偏序判决,虽暴露出模型存在方向性偏差(83%的判决偏向字母顺序靠后的许可证更宽松),但作为对比分析LLM判决偏差的基准工件,为未来提升AI在许可证合规领域的决策可靠性提供了重要参照。该工作紧密融合了生态系统图谱、模型开放框架、数据集数据表等既有标准,独创性地构建了许可证递延边缘类型学,为AI供应链的许可透明度与责任溯源奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作