Intelligent Contract Information Extraction Dataset

Name: Intelligent Contract Information Extraction Dataset
Creator: 上海交通大学智能自主系统研究院, 同济大学; 华东师范大学计算机科学与技术学院, 上海, 中国
Published: 2025-07-09 12:46:31
License: 暂无描述

arXiv2025-07-09 更新2025-07-11 收录

下载链接：

https://arxiv.org/abs/2507.06539v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Intelligent Contract Information Extraction Dataset，由上海交通大学智能自主系统研究院和华东师范大学计算机科学与技术学院的研究人员创建。该数据集包含10,000个工业合同文本，包括招标、采购、销售、运输和服务等领域的合同，数据集分为训练集和测试集。数据集内容丰富，涵盖了工业合同中的各种信息，如履约要求、交货地点、结算细节、材料规格、附加条款等，覆盖了整个供应链。数据集创建过程包括文本分类、自动文本标注和数据增强。该数据集旨在解决工业合同信息提取任务中的文本处理能力、准确性和效率以及泛化性和适应性等方面的挑战。

This dataset is named Intelligent Contract Information Extraction Dataset, and was created by researchers from the Institute of Intelligent Autonomous Systems of Shanghai Jiao Tong University and the School of Computer Science and Technology of East China Normal University. This dataset contains 10,000 industrial contract texts covering contracts in fields such as bidding, procurement, sales, transportation and services, and is divided into training set and test set. The dataset has rich content, covering various information in industrial contracts, such as performance requirements, delivery locations, settlement details, material specifications, additional clauses and so on, spanning the entire supply chain. The construction process of this dataset includes text classification, automatic text annotation and data augmentation. This dataset aims to address the challenges in industrial contract information extraction tasks, including text processing capability, accuracy and efficiency, as well as generalization and adaptability.

提供机构：

上海交通大学智能自主系统研究院, 同济大学; 华东师范大学计算机科学与技术学院, 上海, 中国

创建时间：

2025-07-09

搜集汇总

数据集介绍

构建方式

在工业合同信息提取领域，数据集的构建采用了创新的自动化标注方法。通过聚类分析对原始工业合同文本进行分类，并利用GPT-4从各类簇中心样本中提取关键信息作为标注基准。随后，基于分层抽样策略，采用GPT-3.5进行批量标注，显著降低了人工标注成本。为增强数据多样性，通过随机组合合同关键词生成新的非结构化文本，构建了数据增强子集，最终形成包含原始标注与增强数据的完整数据集。该流程融合了TF-IDF编码、K-means聚类和大型语言模型的上下文学习能力，确保了标注质量与数据多样性。

使用方法

该数据集适用于工业合同信息提取模型的训练与评估。使用时可加载原始文本与标注文件，通过LoRA等参数高效微调方法适配各类大型语言模型。建议训练时采用分层抽样确保类别平衡，并组合原始数据与增强数据提升模型鲁棒性。评估阶段需分别计算资格文本和需求文本的字段匹配准确率，结合ROUGE-1/2/L指标综合衡量语义覆盖度。对于实际部署，可通过解析效率（合同/秒）指标优化推理速度，实现准确率与效能的平衡。

背景与挑战

背景概述

Intelligent Contract Information Extraction Dataset是由上海自主智能系统研究院和华东师范大学的研究团队于2025年提出的高质量工业合同信息提取数据集。该数据集针对工业场景中复杂合同文本的结构化信息提取任务，通过结合GPT-4和GPT-3.5的自动化标注方法，实现了高效低成本的数据构建。其核心研究问题聚焦于解决工业合同特有的技术规范、质量标准和法律条款等多维度信息提取难题，为构建工业知识图谱提供了结构化数据源，推动了合同管理向智能化、自动化方向发展。

当前挑战

该数据集面临三大核心挑战：在领域问题层面，工业合同文本具有专业术语密集、逻辑关系复杂和跨段落关联等特性，要求模型具备强大的长文本理解和领域知识迁移能力；在构建过程中，面临标注质量与成本控制的平衡难题，传统人工标注难以应对工业合同的专业性和多样性。此外，数据分布不均衡问题显著，不同合同类型的样本量差异导致模型泛化性能受限，需要通过分层抽样和数据增强等技术创新来解决。

常用场景

经典使用场景

在工业合同信息提取领域，该数据集被广泛应用于训练和优化大型语言模型，以自动识别和提取合同文本中的关键信息。通过聚类分析和分层抽样，数据集能够有效支持模型在不同类型合同（如招标、采购、销售等）中的信息提取任务，显著提升模型在复杂工业场景下的适应性和准确性。

解决学术问题

该数据集解决了工业合同信息提取中的三大核心问题：文本处理能力不足、人工审核效率低下以及模型泛化能力有限。通过自动化数据标注和增强技术，数据集不仅降低了标注成本，还显著提升了模型在专业术语处理、长文本解析和多段落结构理解方面的性能，为学术研究提供了高质量的数据基础。

实际应用

在实际应用中，该数据集被用于构建智能合同管理系统，支持企业自动化处理大量合同文本。例如，在供应链管理中，模型能够快速提取交货要求、结算细节等关键信息，大幅提升合同审核效率。此外，数据集还可用于法律合规性检查，帮助识别合同中的潜在风险条款。

数据集最近研究