海事海商法中文命名实体识别数据集

github2024-04-02 更新2024-05-31 收录

下载链接：

https://github.com/StanleySun233/maritime-law-ner-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

原始数据集来自于南京信息工程大学鲍闯硕士论文鲍闯.基于BERT的中文长文本分类算法研究[D].南京信息工程大学,2022.DOI:10.27248/d.cnki.gnjqc.2022.000077.

The original dataset is derived from the master's thesis *Research on Chinese Long Text Classification Algorithms Based on BERT* by Bao Chuang, Nanjing University of Information Science and Technology, 2022. DOI: 10.27248/d.cnki.gnjqc.2022.000077.

创建时间：

2024-04-02

原始信息汇总

海事海商法中文命名实体识别数据集概述

数据来源

原始数据集来源于南京信息工程大学鲍闯的硕士论文。

数据清洗与处理

原始数据经过去除空格、占位符，并将HTML文本转换为普通文本。
文本根据【，。】进行拆分，去除长度大于32的文段。
数据集规模约为1600万条，其中前100,000条作为训练集，后20,000条作为测试集，再后20,000条作为验证集，构成tiny数据集。

标注方法

使用RaNER@AdaSeq进行粗标注，标注格式为BIO，使用空格分隔。
标注实体类型包括：公司名(CORP)、创作名(CW)、其他组织名(GRP)、地名(LOC)、人名(PER)、消费品(PROD)。

环境配置

RaNER环境配置：
- Torch: 1.12.1
- Python: 3.8
- OS: ubuntu20.04
- Cuda: 11.6

数据集划分

maritime-law-ner-tiny:
- 训练集: 100k
- 测试集: 20k
- 验证集: 20k
maritime-law-ner-base: 待定
maritime-law-ner-full: 待定

Baseline & Benchmark

评估指标：Acc, Pre, Rec, F1（百分比），Loss函数为CRF的损失函数。
Baseline模型性能：
- BiLSTM-CRF: Acc 85.62%, Pre 67.20%, Rec 62.76%, F1 64.90%, Los 0.21
- BERT-BiLSTM-CRF-Softlexicon: 待补充完整数据

搜集汇总

数据集介绍

构建方式

海事海商法中文命名实体识别数据集的构建基于南京信息工程大学鲍闯的硕士论文研究。原始数据经过清洗，去除空格和占位符，并将HTML文本转化为普通文本。考虑到裁判文书的长度，文本被拆分为小于32个字符的段落。随后，使用RaNER工具对数据集进行粗标注，采用BIO格式，标注了包括公司名、创作名、其他组织名、地名、人名和消费品在内的六类实体。最终，数据集被划分为训练集、测试集和验证集，分别包含100,000条、20,000条和20,000条数据。

特点

该数据集专注于海事海商法领域的中文命名实体识别，具有高度的专业性和针对性。数据集涵盖了六类实体，包括公司名、创作名、其他组织名、地名、人名和消费品，这些实体在海事海商法文本中具有重要的法律意义。数据集的标注采用BIO格式，确保了标注的一致性和可解析性。此外，数据集的划分合理，训练集、测试集和验证集的比例适中，便于模型训练和评估。

使用方法

使用该数据集时，首先需要配置RaNER工具的环境，包括安装特定版本的Torch、Python、OS和Cuda。随后，通过pip命令安装adaseq库。数据集的标注格式为BIO，使用空格分隔，便于直接用于模型训练。用户可以根据需要选择使用tiny、base或full版本的数据集进行模型训练和评估。在模型评估时，可以采用Acc、Pre、Rec、F1和Loss等指标，其中Loss函数为CRF的损失函数。通过这种方式，用户可以有效地利用该数据集进行海事海商法领域的中文命名实体识别研究。

背景与挑战

背景概述

海事海商法中文命名实体识别数据集由南京信息工程大学的鲍闯在其硕士论文中首次提出，该数据集旨在解决海事海商法领域中的中文文本命名实体识别问题。该研究基于BERT模型，专注于长文本分类算法的优化，其成果不仅推动了法律文本处理技术的发展，也为相关领域的学术研究提供了宝贵的数据资源。数据集的处理和标注过程严格遵循科学方法，确保了数据的准确性和实用性，对提升法律文本自动处理的效率和准确性具有重要意义。

当前挑战

该数据集面临的挑战主要包括两个方面：首先，海事海商法文本通常包含大量专业术语和复杂句式，这对命名实体识别的准确性提出了较高要求；其次，数据集的构建过程中，如何有效处理长文本并保持信息的完整性是一个技术难题。此外，数据清洗和标注过程中需要克服文本格式不统一、实体边界模糊等问题，这些都对数据集的最终质量和使用效果产生了直接影响。

常用场景

经典使用场景

在海事海商法领域，中文命名实体识别数据集被广泛应用于法律文本的自动化处理和分析。通过识别文本中的关键实体，如公司名、人名、地名等，该数据集支持法律文书的快速检索和分类，极大地提高了法律研究的效率。

实际应用

在实际应用中，该数据集被用于开发智能法律咨询系统，能够自动识别和提取法律文书中的关键信息，辅助律师和法官进行案件分析和决策。此外，它还支持法律教育，帮助学生和研究人员更好地理解海事海商法的具体应用。

衍生相关工作

基于该数据集，研究者开发了多种命名实体识别模型，如BiLSTM-CRF和BERT-BiLSTM-CRF-Softlexicon，这些模型在法律文本处理领域取得了显著的成果。此外，该数据集还激发了更多关于法律文本自动化和智能化的研究，推动了相关技术的进步。

以上内容由遇见数据集搜集并总结生成