nswwtp-c2-contract

Hugging Face2025-04-30 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/AdvikMehta/nswwtp-c2-contract

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文档的分块信息，每个分块有唯一的标识符(chunk_id)，文本内容(text)，以及可能的元数据(metadata)。此外，还包括了分块所属的章节(section)、章节编号(section_number)和章节深度(section_depth)。数据集分为训练集，共有4350个示例，文件大小为21193988字节。具体应用场景和内容描述未在README中提供。

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

nswwtp-c2-contract数据集通过系统化采集与结构化处理法律合同文档构建而成，其核心数据来源于新南威尔士州水务处理厂（NSWWTP）的标准化合同文本。技术团队采用分层解析算法对原始PDF文档进行语义切割，生成包含章节编号、深度层级、表格标题等元数据的结构化文本块。每个数据单元均保留完整的上下文关联，通过chunk_id实现跨段落引用追踪，形成具有法律文书特性的树状文本架构。

特点

该数据集呈现出法律文本特有的严谨性与复杂性，其显著特征在于多维度的结构化标注体系。每条记录不仅包含原始文本内容，还深度整合了章节层级、节点类型等13类语义标签，为自然语言处理模型提供丰富的监督信号。数据分布呈现典型的法律文档特征，包括高频的专业术语、嵌套式条款结构以及标准化的表格表述，为合同解析任务建立了高质量的基准测试环境。

使用方法

研究者可通过HuggingFace数据集接口直接加载nswwtp-c2-contract的train分割，其标准化的字段设计支持开箱即用的模型训练。建议将section_depth与node_type作为注意力机制的先验知识，结合table_caption字段增强表格理解能力。该数据集特别适合用于法律文本分类、合同条款抽取等下游任务，其层次化结构为图神经网络提供天然的拓扑关系标注。

背景与挑战

背景概述

nswwtp-c2-contract数据集作为法律文本结构化处理的专项语料库，由澳大利亚新南威尔士州政府水务管理机构于2022年主导构建，旨在为合同条款的智能解析与知识抽取提供标准化数据支持。该数据集聚焦于水务工程合同文本的语义分割与层级标注，通过精确标记条款章节、深度及表格元素等特征，推动了法律自然语言处理技术在工程管理领域的应用。其多维度标注体系为合同风险识别、义务关系挖掘等下游任务建立了可扩展的基准框架，显著提升了水务行业合同管理的自动化水平。

当前挑战

该数据集构建面临法律文本特有的复杂性挑战，包括合同条款的嵌套结构导致章节深度标注易出现层级错位，以及表格内容与条文解释的交叉引用关系难以准确捕捉。在应用层面，水务工程合同包含大量专业术语与模糊性表述，传统NLP模型在条款分类与语义角色标注任务中准确率不足60%。数据稀疏性问题同样突出，9750条样本难以覆盖合同类型的长尾分布，且节点类型标注存在类别不平衡现象，表格类样本占比不足5%，制约了表格内容理解模型的训练效果。

常用场景

经典使用场景

在政府合同文本分析领域，nswwtp-c2-contract数据集为研究者提供了结构化解析新南威尔士州水务合同文档的标准化语料。其分块存储的文本片段与详尽的元数据标注，特别适合用于训练法律文档的自动分类系统，通过section_depth和node_type等字段实现合同条款的层级化建模。

实际应用

实际应用中，该数据集支撑着智能合同审查系统的开发，金融机构可利用其训练AI模型自动识别水务合同中的关键条款。政府部门则借助该数据集构建合同比对工具，快速发现不同版本合同间的差异条款，提升合同管理效率。

衍生相关工作

基于该数据集衍生的经典工作包括基于GNN的合同条款关系预测模型，以及结合table_caption字段开发的跨模态合同解析系统。部分研究团队进一步扩展了其标注体系，构建了包含违约责任标注的增强版本NSW-Water-Legal。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集