nlpso/m2m3_qualitative_analysis_ref_ptrn_cmbert_iob2
收藏Hugging Face2023-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nlpso/m2m3_qualitative_analysis_ref_ptrn_cmbert_iob2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于对[HueyNemud/das22-10-camembert_pretrained]模型在嵌套NER任务上的表现进行定性分析,采用独立NER层的方法[M1]。数据集包含19世纪巴黎的贸易目录条目。数据集参数包括采用的方法(M2和M3)、数据集类型(ground-truth)、使用的分词器、标记格式(IOB2)以及训练、开发和测试集的数量。与数据集相关的微调模型包括M2和M3。实体类型包括人物或公司名称(PER)、人物或公司专业活动(ACT)、军事或民事荣誉(TITREH)、条目完整描述(DESC)、专业奖励(TITREP)、地址(SPAT)、街道名称(LOC)、街道号码(CARDINAL)和地理特征(FT)。
This dataset is designed for qualitative analysis of the performance of the [HueyNemud/das22-10-camembert_pretrained] model on nested named entity recognition (NER) tasks, using the independent NER layer approach [M1]. The dataset comprises trade catalog entries from 19th-century Paris. Dataset parameters include the employed methods (M2 and M3), dataset type (ground-truth), the utilized tokenizer, the tagging format (IOB2), and the sizes of the training, development, and test sets. The fine-tuned models associated with this dataset are M2 and M3. Entity types include personal or corporate names (PER), professional activities of individuals or companies (ACT), military or civilian honors (TITREH), full descriptions of entries (DESC), professional awards (TITREP), addresses (SPAT), street names (LOC), street numbers (CARDINAL), and geographical features (FT).
提供机构:
nlpso
原始信息汇总
m2m3_qualitative_analysis_ref_ptrn_cmbert_iob2 数据集概述
数据集描述
该数据集用于对 HueyNemud/das22-10-camembert_pretrained 进行嵌套命名实体识别任务的定性分析,采用独立NER层方法[M1]。数据集包含19世纪巴黎贸易目录条目。
数据集参数
- 方法:M2 和 M3
- 数据集类型:ground-truth
- 分词器:HueyNemud/das22-10-camembert_pretrained
- 标记格式:IOB2
- 数据集大小:
- 训练集:6084
- 验证集:676
- 测试集:1685
- 相关联的微调模型:
实体类型
| 缩写 | 实体组 (级别) | 描述 |
|---|---|---|
| O | 1 & 2 | 非命名实体 |
| PER | 1 | 人名或公司名 |
| ACT | 1 & 2 | 个人或公司职业活动 |
| TITREH | 2 | 军事或民事区分 |
| DESC | 1 | 条目全描述 |
| TITREP | 2 | 职业奖励 |
| SPAT | 1 | 地址 |
| LOC | 2 | 街道名 |
| CARDINAL | 2 | 街道号码 |
| FT | 2 | 地理特征 |
如何使用此数据集
python from datasets import load_dataset
train_dev_test = load_dataset("nlpso/m2m3_qualitative_analysis_ref_ptrn_cmbert_iob2")
搜集汇总
数据集介绍

构建方式
在历史语言学与数字人文的交汇领域,该数据集聚焦于十九世纪巴黎商业名录条目,为嵌套命名实体识别任务提供专门标注。其构建过程依托于独立NER层方法(M1),采用M2与M3两种具体技术路径,并以CamemBERT预训练模型作为基础分词器。数据经过严谨的整理与标注,严格遵循IOB2标记格式,最终形成包含训练集6084条、开发集676条及测试集1685条的高质量语料库,旨在支持对预训练模型在复杂历史文本上的性能进行深入定性分析。
特点
本数据集的核心特点在于其针对嵌套命名实体识别的多层次标注体系。实体类型被精细划分为两个层级:第一层级涵盖人物或公司名称(PER)、职业活动(ACT)、完整描述(DESC)及地址(SPAT)等宏观类别;第二层级则进一步细化,包含军事或民事头衔(TITREH)、专业荣誉(TITREP)、街道名称(LOC)、门牌号码(CARDINAL)以及地理特征(FT)等嵌套子类。这种层级化结构能够精确捕捉历史文献中实体间的复杂从属与嵌套关系,为模型理解文本的深层语义结构提供了丰富而系统的监督信号。
使用方法
利用该数据集进行研究时,可通过Hugging Face的`datasets`库直接加载,便捷地获取已划分好的训练、开发与测试子集。研究者可将其与关联的微调模型(如M2联合标签模型或M3分层NER模型)结合使用,以评估或比较不同方法在历史法语文本上的嵌套实体识别效能。该数据集主要服务于自然语言处理中token-classification任务,特别适用于检验预训练语言模型在细粒度、多层次信息抽取场景下的泛化能力与局限性,是进行模型定性分析与方法对比的理想基准数据。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别作为信息抽取的核心任务,长期致力于从非结构化文本中识别并分类实体。随着研究的深入,嵌套命名实体识别因其能够处理实体间的层次与重叠关系,逐渐成为学术焦点。nlpso/m2m3_qualitative_analysis_ref_ptrn_cmbert_iob2数据集应运而生,由研究团队为评估独立NER层方法在嵌套NER任务上的性能而构建。该数据集基于19世纪巴黎商业名录条目,采用IOB2标注格式,并依托CamemBERT预训练模型进行分词,旨在推动历史文档分析与法语嵌套实体识别技术的发展,为相关模型如M2和M3的定性分析提供基准支持。
当前挑战
嵌套命名实体识别任务本身面临实体边界模糊与层次结构复杂的挑战,尤其在历史文献中,实体如人名、地址与专业活动常交织出现,增加了标注与模型识别的难度。数据集构建过程中,需克服19世纪法语文本的拼写变异与领域特异性,确保标注一致性;同时,采用IOB2格式处理多层级实体标签,对标注规范与工具提出了较高要求。此外,数据规模相对有限,可能影响模型泛化能力,需通过精细的预处理与增强策略来优化性能。
常用场景
经典使用场景
在历史文献数字化与信息抽取领域,该数据集为19世纪巴黎商业名录条目提供了精细的标注框架。其核心应用场景在于评估与比较嵌套命名实体识别(NER)的不同方法学,特别是针对独立NER层(M1)与联合标注(M2)、层次化(M3)等先进模型在复杂历史文本上的表现。研究者通过该数据集能够系统分析模型在识别如人名、职业、地址等多层次、嵌套实体时的能力,为历史档案的结构化解析奠定基础。
解决学术问题
该数据集直接应对了嵌套命名实体识别这一自然语言处理中的经典难题,尤其在历史文献语境下,实体常呈现层次化与类型交叉的特征。它通过提供双层实体标注(如第一层的PER、ACT与第二层的TITREH、LOC),使研究者能够量化评估模型处理实体边界模糊与类型嵌套的效能。这不仅推动了NER方法学在复杂语义结构上的进展,也为数字人文领域提供了可复现的评估基准,促进了跨学科研究方法论的融合。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于CamemBERT预训练模型的微调版本,如M2联合标注模型与M3层次化NER模型。这些工作进一步探索了独立层、联合学习与层次化架构在法语历史文本上的优化策略,推动了嵌套NER技术在欧洲历史文献处理中的专门化发展,并为后续研究提供了可比较的模型基准与实验范式。
以上内容由遇见数据集搜集并总结生成



