Norm Dataset

github2018-11-26 更新2024-05-31 收录

下载链接：

https://github.com/JoaoPauloAires/norm-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集用于句子分类和规范冲突识别。句子分类部分通过手动标注包含规范和非规范句子的集合来创建句子分类器。规范冲突识别部分通过从现有合同中创建规范冲突来测试冲突识别器。

This dataset is designed for sentence classification and the identification of normative conflicts. The sentence classification component involves the manual annotation of a collection of sentences, both normative and non-normative, to develop a sentence classifier. The normative conflict identification part tests the conflict identifier by creating normative conflicts from existing contracts.

创建时间：

2017-03-03

原始信息汇总

Norm Dataset 概述

数据集用途

句子分类：用于判断给定句子是否为规范（norm）。
冲突识别：用于测试规范冲突的识别。

数据集构建方法

句子分类

数据来源：手动标注的数据集，包含规范和非规范句子，数据来源于 onecle 的合同。
数据组织：由 Gao 和 Singh 在他们的研究 Mining Business Contracts for Service Exceptions 中组织。

冲突识别

数据生成：通过工具随机选择合同中的规范，并要求用户修改以产生冲突。
数据来源：同样使用 onecle 的合同，由 Gao 和 Singh 组织。

搜集汇总

数据集介绍

构建方式

针对句子分类与规范冲突识别任务，Norm Dataset的构建基于对既有合同文本的深入分析。研究人员从[onecle](http://contracts.onecle.com/)网站提取合同文本，并依照Gao和Singh的工作《Mining Business Contracts for Service Exceptions》进行了组织。在句子分类部分，数据集通过人工标注既包含规范句子亦包含非规范句子的集合得以形成。至于冲突识别部分，则通过选取合同中的规范并引导用户进行修改以产生冲突，进而构建数据集。

特点

该数据集独具匠心，不仅涵盖了规范句子的分类，还涉及规范之间的冲突识别。它以真实合同为蓝本，确保了数据的真实性和多样性。句子分类数据集通过人工标注，确保了标注质量与准确性；而冲突识别数据集则通过互动式修改，模拟了现实中规范冲突产生的场景。

使用方法

使用Norm Dataset时，用户可直接获取人工标注的句子分类数据，以及通过互动生成的规范冲突数据。对于句子分类任务，用户需训练模型以区分规范与非规范句子；对于冲突识别任务，用户则需设计模型以识别并处理规范之间的冲突。数据集的使用不涉及复杂的预处理步骤，便于研究人员快速开展相关研究。

背景与挑战

背景概述

Norm Dataset是一个致力于句子分类及规范冲突识别的研究数据集，创建于对商务合同中规范语句进行挖掘与分析的需求背景之下。该数据集由Gao和Singh基于从onecle网站提取的现有合同整理而成，旨在解决服务异常挖掘这一核心研究问题，对商务合同管理与自然语言处理领域产生了显著影响。

当前挑战

该数据集在构建过程中面临了两大挑战：一是如何准确地进行句子分类，判定句子是否属于规范；二是如何有效识别并构建规范冲突，这要求研究人员不仅需设计出能够处理随机选取合同中规范的工具，还需确保生成的冲突具有实际意义和研究价值。

常用场景

经典使用场景

在自然语言处理领域，Norm Dataset 数据集被广泛应用于句子分类与规范冲突识别的研究。该数据集的经典使用场景在于构建一个句子分类器，能够准确判断给定的句子是否属于规范句子。通过该数据集，研究人员可以训练模型以区分规范句子与非规范句子，从而在合同分析、法律文档审核等领域实现自动化处理。

衍生相关工作

基于Norm Dataset 数据集，衍生了诸多相关研究工作，如进一步探索规范句子的特征表示、冲突检测算法的改进，以及结合更多实际业务场景的模型应用研究。这些工作不仅推动了文本分类与冲突识别技术的进步，也为智能合约和自动化法律服务提供了新的方法和工具。

数据集最近研究