nlpso/m1_qualitative_analysis_ref_cmbert_io

Name: nlpso/m1_qualitative_analysis_ref_cmbert_io
Creator: nlpso
Published: 2023-02-22 08:39:49
License: 暂无描述

Hugging Face2023-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nlpso/m1_qualitative_analysis_ref_cmbert_io

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - fr multilinguality: - monolingual task_categories: - token-classification --- # m1_qualitative_analysis_ref_cmbert_io ## Introduction This dataset was used to perform **qualitative analysis** of [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) on **nested NER task** using Independant NER layers approach [M1]. It contains Paris trade directories entries from the 19th century. ## Dataset parameters * Approach : M1 * Dataset type : ground-truth * Tokenizer : [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) * Tagging format : IO * Counts : * Train : 6084 * Dev : 676 * Test : 1685 * Associated fine-tuned models : * Level-1 : [nlpso/m1_ind_layers_ref_cmbert_io_level_1](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_1) * Level 2 : [nlpso/m1_ind_layers_ref_cmbert_io_level_2](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_2) ## Entity types Abbreviation|Entity group (level)|Description -|-|- O |1 & 2|Outside of a named entity PER |1|Person or company name ACT |1 & 2|Person or company professional activity TITREH |2|Military or civil distinction DESC |1|Entry full description TITREP |2|Professionnal reward SPAT |1|Address LOC |2|Street name CARDINAL |2|Street number FT |2|Geographical feature ## How to use this dataset ```python from datasets import load_dataset train_dev_test = load_dataset("nlpso/m1_qualitative_analysis_ref_cmbert_io")

--- 语言： - 法语多语言属性： - 单语言任务类别： - 词元分类（Token Classification） --- # m1_qualitative_analysis_ref_cmbert_io ## 简介本数据集用于基于独立NER层方法[M1]，对[Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner)模型开展**嵌套命名实体识别（Nested NER）任务**的定性分析。数据集包含19世纪巴黎工商名录条目。 ## 数据集参数 * 方法：M1 * 数据集类型：真值标注数据集 * 分词器（Tokenizer）：[Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) * 标注格式：IO格式 * 样本数量： * 训练集：6084条 * 验证集：676条 * 测试集：1685条 * 关联微调模型： * 层级1：[nlpso/m1_ind_layers_ref_cmbert_io_level_1](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_1) * 层级2：[nlpso/m1_ind_layers_ref_cmbert_io_level_2](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_2) ## 实体类型 |缩写|实体组（层级）|说明| |-|-|-| |O|1、2层级|非命名实体区域| |PER|层级1|人物或企业名称| |ACT|1、2层级|人物或企业的职业/经营活动| |TITREH|层级2|军事或民事荣誉称号| |DESC|层级1|条目完整描述| |TITREP|层级2|职业荣誉奖励| |SPAT|层级1|地址| |LOC|层级2|街道名称| |CARDINAL|层级2|街道门牌号| |FT|层级2|地理实体| ## 数据集使用方法 python from datasets import load_dataset train_dev_test = load_dataset("nlpso/m1_qualitative_analysis_ref_cmbert_io")

提供机构：

nlpso

原始信息汇总

数据集概述

数据集名称

m1_qualitative_analysis_ref_cmbert_io

数据集描述

该数据集用于对Jean-Baptiste/camembert-ner进行嵌套命名实体识别任务的定性分析，采用独立NER层方法[M1]。数据集包含19世纪巴黎贸易目录的条目。

数据集参数

方法：M1
数据集类型：ground-truth
分词器：Jean-Baptiste/camembert-ner
标记格式：IO
数据集大小：
- 训练集：6084
- 验证集：676
- 测试集：1685
相关联的微调模型：
- 第一级：nlpso/m1_ind_layers_ref_cmbert_io_level_1
- 第二级：nlpso/m1_ind_layers_ref_cmbert_io_level_2

实体类型

缩写	实体组(级别)	描述
O	1 & 2	非命名实体
PER	1	个人或公司名称
ACT	1 & 2	个人或公司职业活动
TITREH	2	军事或民事区别
DESC	1	条目全描述
TITREP	2	职业奖励
SPAT	1	地址
LOC	2	街道名称
CARDINAL	2	街道号码
FT	2	地理特征

如何使用数据集

python from datasets import load_dataset

train_dev_test = load_dataset("nlpso/m1_qualitative_analysis_ref_cmbert_io")

搜集汇总

数据集介绍

构建方式

在历史语言学与数字人文的交叉领域，该数据集以19世纪巴黎商业名录条目为原始语料，采用独立命名实体识别层方法（M1）构建而成。其构建过程首先运用CamemBERT-NER分词器对法语文本进行精细化处理，随后依据IO标注格式对嵌套命名实体进行层级化标注，形成了包含训练集、开发集与测试集的完整语料体系，为嵌套命名实体识别任务提供了结构化的评估基准。

特点

该数据集在法语历史文献处理领域展现出鲜明的专业特性，其核心特征在于采用双层实体标注架构，将传统命名实体（如人物、地址）与专业语义范畴（如军事头衔、职业荣誉）进行解耦标注。数据集涵盖PER、ACT、SPAT等基础实体类型，同时包含TITREH、TITREP等历史文献特有的细粒度类别，这种层级化标签体系为分析嵌套实体识别模型的语义解耦能力提供了多维度的观察视角。

使用方法

研究人员可通过HuggingFace数据集库直接加载该语料，使用标准接口即可获取已划分的训练、开发与测试子集。该数据集主要服务于嵌套命名实体识别模型的定性评估，用户可结合配套的微调模型进行层级化性能分析，通过对比基础实体与嵌套实体的识别效果，深入探究独立层方法在历史文献处理任务中的语义边界划分能力与结构化解码特性。

背景与挑战

背景概述

在自然语言处理领域，历史文献的数字化与信息提取是连接过去与未来的重要桥梁。数据集nlpso/m1_qualitative_analysis_ref_cmbert_io由相关研究团队于近期构建，专注于19世纪巴黎商业名录条目的嵌套命名实体识别任务。该数据集依托CamemBERT模型，采用独立层方法（M1），旨在深入分析模型在复杂历史文本上的性能表现。其核心研究问题聚焦于如何从非结构化的历史档案中自动识别多层次实体，如人物、职业、地址等，为数字人文和计算历史学提供了宝贵的标注资源，推动了跨学科研究的发展。

当前挑战

该数据集所解决的领域问题是嵌套命名实体识别，其挑战在于历史文本中实体边界模糊、嵌套结构复杂，且语言表达与现代法语存在差异，导致模型难以准确区分不同层次的语义信息。构建过程中的挑战则体现在数据标注上：19世纪商业名录条目格式多样、缩写频繁，需要领域专家进行精细的层级标注，确保实体类型如军事头衔、地理特征等的准确划分，同时保持标注一致性，这增加了数据收集与验证的难度。

常用场景

经典使用场景

在历史语言学与数字人文领域，该数据集为研究19世纪巴黎商业目录的嵌套命名实体识别提供了珍贵语料。其经典应用场景在于评估独立层方法（M1）在法语嵌套实体抽取任务中的性能，通过精细标注的实体层级结构，支持对CamemBERT-ner模型在复杂历史文本上的表现进行系统性分析。

衍生相关工作

基于该数据集衍生的经典工作包括独立层嵌套NER架构的优化研究，以及跨世纪法语文本的领域自适应方法探索。相关研究进一步拓展至欧洲多语言历史文献的联合标注范式，催生了如HISTNER等系列历史文本处理框架的演进。

数据集最近研究