five

supply-chain-contracts

收藏
Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/gathondu/supply-chain-contracts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与运输合同相关的结构化信息,涵盖合同编号、生效日期、发货人与收货人信息、货物描述、数量、总重量、价值、运输方式、起运地与目的地、预计交付日期、总运输成本、付款计划、保险覆盖范围与价值、责任条款、延迟交付罚金、宽限期、海关与合规要求、终止通知、管辖法律、仲裁地点、关键词、库存状态和当前运输状态等字段。数据集分为训练集(128个样本)、验证集(16个样本)和测试集(16个样本),总大小约239KB。适用于运输合同分析、物流管理、法律条款研究等自然语言处理任务。
创建时间:
2026-03-04
原始信息汇总

数据集概述

基本信息

  • 数据集名称: supply-chain-contracts
  • 发布者: gathondu
  • 数据集地址: https://huggingface.co/datasets/gathondu/supply-chain-contracts

数据集内容

  • 数据描述: 该数据集包含供应链合同相关的结构化信息。
  • 数据规模: 总计160个样本。
  • 数据格式: 结构化表格数据。

数据字段

数据集包含以下字段:

  • contract_number: 合同编号 (字符串类型)
  • effective_date: 生效日期 (日期类型)
  • shipper: 发货方 (字符串类型)
  • receiver: 收货方 (字符串类型)
  • goods_description: 货物描述 (字符串类型)
  • quantity: 数量 (整数类型)
  • total_weight: 总重量 (整数类型)
  • value: 价值 (整数类型)
  • shipping_method: 运输方式 (字符串类型)
  • origin: 始发地 (字符串类型)
  • destination: 目的地 (字符串类型)
  • estimated_delivery_date: 预计交货日期 (日期类型)
  • total_shipping_cost: 总运输成本 (整数类型)
  • payment_schedule: 付款计划 (字符串类型)
  • insurance_coverage: 保险覆盖范围 (布尔类型)
  • insurance_value: 保险价值 (整数类型)
  • liability: 责任条款 (字符串类型)
  • penalty_for_late_delivery: 延迟交货罚金 (整数类型)
  • grace_period: 宽限期 (字符串类型)
  • customs_and_compliance: 海关与合规 (字符串类型)
  • termination_notice: 终止通知 (字符串类型)
  • jurisdiction: 司法管辖区 (字符串类型)
  • arbitration_location: 仲裁地点 (字符串类型)
  • keywords: 关键词 (字符串类型)
  • inventory_status: 库存状态 (字符串类型)
  • current_transit_status: 当前运输状态 (字符串类型)
  • prompt: 提示 (空值类型)
  • summary: 摘要 (字符串类型)
  • full: 完整内容 (字符串类型)

数据划分

数据集划分为三个部分:

  • 训练集: 128个样本,占用190,864字节
  • 验证集: 16个样本,占用24,079字节
  • 测试集: 16个样本,占用24,355字节

技术信息

  • 总下载大小: 106,930字节
  • 总数据集大小: 239,298字节
  • 默认配置: 包含训练集、验证集和测试集的数据文件路径
搜集汇总
数据集介绍
构建方式
在供应链管理领域,数据驱动的决策日益成为提升运营效率的关键。本数据集通过系统化采集真实供应链合同文档,构建了一个涵盖合同编号、生效日期、发货方与收货方信息、货物描述、数量与总重、价值、运输方式、起运地与目的地、预计交付日期、总运输成本、付款计划、保险覆盖、责任条款、延迟交付罚金、宽限期、海关合规、终止通知、管辖法律、仲裁地点、关键词、库存状态、当前运输状态等多元维度的结构化数据集。数据经过匿名化处理,确保商业机密性,并划分为训练集、验证集和测试集,以支持机器学习模型的开发与评估。
特点
该数据集以其高度的结构化和全面性而著称,每一份合同记录均包含从基础交易信息到复杂法律条款的丰富字段,如保险覆盖的布尔值标识、责任与仲裁地点的文本描述,以及库存与运输状态的动态更新。这种设计不仅反映了供应链合同的实际复杂性,还通过关键词字段增强了文本检索与分析的可操作性。数据规模适中,共包含160条样本,分为128条训练数据、16条验证数据和16条测试数据,适用于小规模但精细化的模型训练任务,为供应链风险预测、合同自动化审查等应用提供了扎实的数据基础。
使用方法
在供应链分析与人工智能应用场景中,本数据集可直接用于监督学习任务,例如基于合同条款预测交付风险或自动化生成合同摘要。研究人员可通过加载训练集进行模型训练,利用验证集调整超参数,最终在测试集上评估性能。数据中的'prompt'字段虽为空值,但'summary'和'full'字段提供了完整的文本内容,便于自然语言处理模型的输入与输出设计。使用前需注意数据格式的解析,确保日期与数值字段的正确处理,以充分发挥其在供应链优化与智能决策支持中的潜力。
背景与挑战
背景概述
供应链合同数据集(supply-chain-contracts)聚焦于全球物流与贸易领域的合同文本分析,其构建旨在应对日益复杂的供应链管理需求。该数据集由相关研究机构或团队于近年创建,通过整合合同编号、生效日期、发货方、收货方、货物描述、数量、总重量、价值、运输方式、起运地、目的地、预计交付日期、总运输成本、付款计划、保险覆盖、保险价值、责任条款、延迟交付罚金、宽限期、海关与合规条款、终止通知、管辖法律、仲裁地点、关键词、库存状态、当前运输状态以及合同摘要与全文等多维度特征,为自然语言处理与法律智能应用提供了结构化基础。其核心研究问题在于如何利用机器学习技术自动化解析合同条款,以优化供应链风险预测、合规性审查与运营效率,对物流信息化与智能合约发展具有显著推动作用。
当前挑战
该数据集致力于解决供应链合同自动化解析与管理的领域挑战,具体包括合同文本的语义复杂性、法律术语的歧义性以及多语言条款的标准化问题,这些因素增加了模型准确提取关键信息(如责任划分、罚金计算)的难度。在构建过程中,挑战主要源于数据收集的隐私与合规性约束,需在匿名化处理与信息完整性之间取得平衡;同时,合同格式的异构性(如不同国家法律体系下的条款表述差异)要求精细的标注策略与领域专家参与,以确保数据质量与泛化能力。
常用场景
经典使用场景
在供应链管理领域,数据驱动的决策制定日益成为提升运营效率的核心。该数据集通过提供结构化的合同文本与物流信息,为自然语言处理任务如文本摘要和关系提取提供了丰富的语料。研究人员可基于此数据集训练模型,自动生成合同关键条款的简明摘要,或识别合同中的实体与责任关系,从而支持供应链合同的分析与标准化处理。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在合同文本的自动摘要生成、基于实体关系的供应链网络分析,以及风险预测模型的构建。例如,有研究利用其训练序列到序列模型以提炼合同要点,另有工作结合图神经网络挖掘发货方与接收方之间的协作模式,为供应链优化提供了方法论支持。
数据集最近研究
最新研究方向
在供应链管理领域,随着全球贸易数字化进程加速,供应链合同数据的智能分析成为研究热点。该数据集整合了合同编号、货物描述、运输成本、法律责任等结构化字段,为自然语言处理与机器学习模型提供了丰富训练资源。前沿研究聚焦于利用此类数据构建自动化合同审查系统,通过深度学习技术识别风险条款、预测交付延迟概率,并优化物流路径规划。同时,结合区块链与物联网事件,学者们探索合同执行状态的实时监控与智能履约机制,以提升供应链透明度和韧性,应对贸易中断等全球性挑战。这些进展不仅推动了供应链金融的创新,也为合规自动化与争议解决提供了数据驱动的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作