nlpso/m1_fine_tuning_ref_cmbert_io
收藏Hugging Face2023-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nlpso/m1_fine_tuning_ref_cmbert_io
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- fr
multilinguality:
- monolingual
task_categories:
- token-classification
---
# m1_fine_tuning_ref_cmbert_io
## Introduction
This dataset was used to fine-tuned [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) for **nested NER task** using Independant NER layers approach [M1].
It contains Paris trade directories entries from the 19th century.
## Dataset parameters
* Approach : M1
* Dataset type : ground-truth
* Tokenizer : [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner)
* Tagging format : IO
* Counts :
* Train : 6084
* Dev : 676
* Test : 1685
* Associated fine-tuned models :
* Level-1 : [nlpso/m1_ind_layers_ref_cmbert_io_level_1](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_1)
* Level 2 : [nlpso/m1_ind_layers_ref_cmbert_io_level_2](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_2)
## Entity types
Abbreviation|Entity group (level)|Description
-|-|-
O |1 & 2|Outside of a named entity
PER |1|Person or company name
ACT |1 & 2|Person or company professional activity
TITREH |2|Military or civil distinction
DESC |1|Entry full description
TITREP |2|Professionnal reward
SPAT |1|Address
LOC |2|Street name
CARDINAL |2|Street number
FT |2|Geographical feature
## How to use this dataset
```python
from datasets import load_dataset
train_dev_test = load_dataset("nlpso/m1_fine_tuning_ref_cmbert_io")
---
language:
- 法语
multilinguality:
- 单语言
task_categories:
- 词元分类(Token Classification)
---
# m1_fine_tuning_ref_cmbert_io
## 简介
本数据集采用独立命名实体识别层方法[M1],用于微调[Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner)以完成**嵌套命名实体识别(Nested NER)**任务。数据集包含19世纪巴黎工商名录条目。
## 数据集参数
* 方法:M1
* 数据集类型:真实标注(Ground Truth)
* 分词器:[Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner)
* 标注格式:IO标注格式
* 样本规模:
* 训练集:6084
* 验证集:676
* 测试集:1685
* 关联微调模型:
* 层级1:[nlpso/m1_ind_layers_ref_cmbert_io_level_1](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_1)
* 层级2:[nlpso/m1_ind_layers_ref_cmbert_io_level_2](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_2)
## 实体类型
| 缩写 | 实体组(层级) | 说明 |
|------|----------------|------|
| O | 层级1与层级2 | 不属于任何命名实体 |
| PER | 层级1 | 人名或公司名称 |
| ACT | 层级1与层级2 | 个人或企业的职业活动 |
| TITREH | 层级2 | 军事或民事荣誉称号 |
| DESC | 层级1 | 条目完整描述 |
| TITREP | 层级2 | 职业荣誉奖励 |
| SPAT | 层级1 | 地址 |
| LOC | 层级2 | 街道名称 |
| CARDINAL | 层级2 | 门牌号 |
| FT | 层级2 | 地理实体 |
## 数据集使用方式
python
from datasets import load_dataset
train_dev_test = load_dataset("nlpso/m1_fine_tuning_ref_cmbert_io")
提供机构:
nlpso
原始信息汇总
数据集概述
基本信息
- 名称:m1_fine_tuning_ref_cmbert_io
- 语言:法语(fr)
- 多语言性:单语
- 任务类别:token-classification
数据集描述
- 用途:用于微调 Jean-Baptiste/camembert-ner 模型,以处理嵌套命名实体识别任务(nested NER task)。
- 数据来源:包含19世纪巴黎贸易目录的条目。
数据集参数
- 方法:M1(独立NER层方法)
- 数据类型:ground-truth
- 分词器:Jean-Baptiste/camembert-ner
- 标注格式:IO
- 数据量:
- 训练集:6084
- 验证集:676
- 测试集:1685
- 相关微调模型:
实体类型
| 缩写 | 实体组(级别) | 描述 |
|---|---|---|
| O | 1 & 2 | 非实体部分 |
| PER | 1 | 个人或公司名称 |
| ACT | 1 & 2 | 个人或公司职业活动 |
| TITREH | 2 | 军事或民事区别 |
| DESC | 1 | 条目全描述 |
| TITREP | 2 | 职业奖励 |
| SPAT | 1 | 地址 |
| LOC | 2 | 街道名称 |
| CARDINAL | 2 | 街道号码 |
| FT | 2 | 地理特征 |
使用方法
python from datasets import load_dataset
train_dev_test = load_dataset("nlpso/m1_fine_tuning_ref_cmbert_io")
搜集汇总
数据集介绍

构建方式
在历史语言学与数字人文的交叉领域,该数据集以19世纪巴黎工商名录条目为原始语料,采用独立命名实体识别层方法(M1)构建而成。其构建过程首先基于CamemBERT预训练模型的分词器进行文本切分,随后依据IO标注格式对嵌套命名实体进行手工标注,形成了包含训练集、开发集与测试集的完整语料体系,为历史文献中的结构化信息提取提供了高质量的标注基准。
特点
该数据集在法语历史文献处理领域展现出鲜明的专业特性,其核心特征在于采用双层嵌套实体标注体系,将实体划分为人物机构、职业活动、地址描述等一级类别,并进一步细分为军事头衔、街道名称、地理特征等二级子类。这种层次化标注结构能够精准捕捉历史文本中复杂的语义关系,同时数据集严格遵循单语种法语规范,所有标注均经过人工校验,确保了标注的一致性与权威性,为嵌套命名实体识别任务提供了可靠的评估基准。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,调用load_dataset函数即可获取已划分的训练、开发与测试子集。该数据集专为微调CamemBERT-ner模型设计,适用于嵌套命名实体识别任务的模型训练与评估,用户可依据标注的层次化实体类型开发相应的序列标注模型,进而应用于历史档案数字化、社会网络分析等数字人文研究场景。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)作为信息抽取的关键任务,长期致力于从非结构化文本中识别并分类实体。随着历史文献数字化进程的加速,对19世纪巴黎商业名录等档案资料进行自动化实体提取的需求日益凸显。nlpso/m1_fine_tuning_ref_cmbert_io数据集应运而生,由研究团队基于独立NER层方法(M1)构建,专门用于微调CamemBERT模型以处理嵌套NER任务。该数据集聚焦于历史文献中的多层次实体标注,如人物、职业、地址等,旨在推动法语历史文本的智能化处理,为数字人文研究提供重要数据支撑。
当前挑战
该数据集致力于解决嵌套命名实体识别在历史文献中的复杂挑战,包括实体边界模糊、层级结构交错以及历史语言变体带来的歧义问题。在构建过程中,面临多重困难:历史文本的印刷质量参差不齐,导致字符识别与分词准确性下降;嵌套实体标注需要精细的层级划分,增加了标注一致性与标准化的难度;同时,数据规模相对有限,且需平衡不同实体类型的分布,以确保模型训练的泛化能力。这些挑战共同制约了历史文献NER任务的性能提升与广泛应用。
常用场景
经典使用场景
在历史文献数字化与信息抽取领域,该数据集为嵌套命名实体识别任务提供了关键支持。其核心应用场景在于对19世纪巴黎商业名录条目进行结构化解析,通过独立层级方法识别文本中嵌套的实体类型,如人名、公司名、职业活动及地址等。这一过程不仅能够自动化处理大量非结构化历史档案,还为后续的语义分析和知识图谱构建奠定了坚实基础,显著提升了历史资料的可访问性与研究效率。
实际应用
在实际应用中,该数据集支撑的模型能够自动化处理历史档案馆藏,例如将巴黎19世纪的商业名录转化为结构化数据库。这类技术可应用于文化遗产数字化项目,帮助历史学家快速提取人物、职业、地点等关键信息,辅助社会网络分析或经济史研究。同时,其方法也可迁移至其他语言或领域的嵌套文本分析,如法律文书或生物医学文献的实体抽取,展现出较强的实践扩展性。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于CamemBERT的嵌套NER模型优化研究,例如独立层级架构在法语历史文本上的适应性改进。相关成果进一步推动了层级标注策略在跨语言NER任务中的应用,并启发了对低资源历史语料的序列标注方法探索。这些工作不仅丰富了嵌套实体识别的技术体系,也为数字人文领域提供了可复用的模型框架,促进了语言学与计算机科学的深度融合。
以上内容由遇见数据集搜集并总结生成



