nlpso/m1_fine_tuning_ref_cmbert_io

Name: nlpso/m1_fine_tuning_ref_cmbert_io
Creator: nlpso
Published: 2023-02-22 08:38:54
License: 暂无描述

Hugging Face2023-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nlpso/m1_fine_tuning_ref_cmbert_io

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - fr multilinguality: - monolingual task_categories: - token-classification --- # m1_fine_tuning_ref_cmbert_io ## Introduction This dataset was used to fine-tuned [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) for **nested NER task** using Independant NER layers approach [M1]. It contains Paris trade directories entries from the 19th century. ## Dataset parameters * Approach : M1 * Dataset type : ground-truth * Tokenizer : [Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) * Tagging format : IO * Counts : * Train : 6084 * Dev : 676 * Test : 1685 * Associated fine-tuned models : * Level-1 : [nlpso/m1_ind_layers_ref_cmbert_io_level_1](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_1) * Level 2 : [nlpso/m1_ind_layers_ref_cmbert_io_level_2](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_2) ## Entity types Abbreviation|Entity group (level)|Description -|-|- O |1 & 2|Outside of a named entity PER |1|Person or company name ACT |1 & 2|Person or company professional activity TITREH |2|Military or civil distinction DESC |1|Entry full description TITREP |2|Professionnal reward SPAT |1|Address LOC |2|Street name CARDINAL |2|Street number FT |2|Geographical feature ## How to use this dataset ```python from datasets import load_dataset train_dev_test = load_dataset("nlpso/m1_fine_tuning_ref_cmbert_io")

--- language: - 法语 multilinguality: - 单语言 task_categories: - 词元分类（Token Classification） --- # m1_fine_tuning_ref_cmbert_io ## 简介本数据集采用独立命名实体识别层方法[M1]，用于微调[Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner)以完成**嵌套命名实体识别（Nested NER）**任务。数据集包含19世纪巴黎工商名录条目。 ## 数据集参数 * 方法：M1 * 数据集类型：真实标注（Ground Truth） * 分词器：[Jean-Baptiste/camembert-ner](https://huggingface.co/Jean-Baptiste/camembert-ner) * 标注格式：IO标注格式 * 样本规模： * 训练集：6084 * 验证集：676 * 测试集：1685 * 关联微调模型： * 层级1：[nlpso/m1_ind_layers_ref_cmbert_io_level_1](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_1) * 层级2：[nlpso/m1_ind_layers_ref_cmbert_io_level_2](https://huggingface.co/nlpso/m1_ind_layers_ref_cmbert_io_level_2) ## 实体类型 | 缩写 | 实体组（层级） | 说明 | |------|----------------|------| | O | 层级1与层级2 | 不属于任何命名实体 | | PER | 层级1 | 人名或公司名称 | | ACT | 层级1与层级2 | 个人或企业的职业活动 | | TITREH | 层级2 | 军事或民事荣誉称号 | | DESC | 层级1 | 条目完整描述 | | TITREP | 层级2 | 职业荣誉奖励 | | SPAT | 层级1 | 地址 | | LOC | 层级2 | 街道名称 | | CARDINAL | 层级2 | 门牌号 | | FT | 层级2 | 地理实体 | ## 数据集使用方式 python from datasets import load_dataset train_dev_test = load_dataset("nlpso/m1_fine_tuning_ref_cmbert_io")

提供机构：

nlpso

原始信息汇总

数据集概述

基本信息

名称：m1_fine_tuning_ref_cmbert_io
语言：法语（fr）
多语言性：单语
任务类别：token-classification

数据集描述

用途：用于微调 Jean-Baptiste/camembert-ner 模型，以处理嵌套命名实体识别任务（nested NER task）。
数据来源：包含19世纪巴黎贸易目录的条目。

数据集参数

方法：M1（独立NER层方法）
数据类型：ground-truth
分词器：Jean-Baptiste/camembert-ner
标注格式：IO
数据量：
- 训练集：6084
- 验证集：676
- 测试集：1685
相关微调模型：
- 第一级：nlpso/m1_ind_layers_ref_cmbert_io_level_1
- 第二级：nlpso/m1_ind_layers_ref_cmbert_io_level_2

实体类型

缩写	实体组（级别）	描述
O	1 & 2	非实体部分
PER	1	个人或公司名称
ACT	1 & 2	个人或公司职业活动
TITREH	2	军事或民事区别
DESC	1	条目全描述
TITREP	2	职业奖励
SPAT	1	地址
LOC	2	街道名称
CARDINAL	2	街道号码
FT	2	地理特征

使用方法

python from datasets import load_dataset

train_dev_test = load_dataset("nlpso/m1_fine_tuning_ref_cmbert_io")

搜集汇总

数据集介绍

构建方式

在历史语言学与数字人文的交叉领域，该数据集以19世纪巴黎工商名录条目为原始语料，采用独立命名实体识别层方法（M1）构建而成。其构建过程首先基于CamemBERT预训练模型的分词器进行文本切分，随后依据IO标注格式对嵌套命名实体进行手工标注，形成了包含训练集、开发集与测试集的完整语料体系，为历史文献中的结构化信息提取提供了高质量的标注基准。

特点

该数据集在法语历史文献处理领域展现出鲜明的专业特性，其核心特征在于采用双层嵌套实体标注体系，将实体划分为人物机构、职业活动、地址描述等一级类别，并进一步细分为军事头衔、街道名称、地理特征等二级子类。这种层次化标注结构能够精准捕捉历史文本中复杂的语义关系，同时数据集严格遵循单语种法语规范，所有标注均经过人工校验，确保了标注的一致性与权威性，为嵌套命名实体识别任务提供了可靠的评估基准。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，调用load_dataset函数即可获取已划分的训练、开发与测试子集。该数据集专为微调CamemBERT-ner模型设计，适用于嵌套命名实体识别任务的模型训练与评估，用户可依据标注的层次化实体类型开发相应的序列标注模型，进而应用于历史档案数字化、社会网络分析等数字人文研究场景。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）作为信息抽取的关键任务，长期致力于从非结构化文本中识别并分类实体。随着历史文献数字化进程的加速，对19世纪巴黎商业名录等档案资料进行自动化实体提取的需求日益凸显。nlpso/m1_fine_tuning_ref_cmbert_io数据集应运而生，由研究团队基于独立NER层方法（M1）构建，专门用于微调CamemBERT模型以处理嵌套NER任务。该数据集聚焦于历史文献中的多层次实体标注，如人物、职业、地址等，旨在推动法语历史文本的智能化处理，为数字人文研究提供重要数据支撑。

当前挑战

该数据集致力于解决嵌套命名实体识别在历史文献中的复杂挑战，包括实体边界模糊、层级结构交错以及历史语言变体带来的歧义问题。在构建过程中，面临多重困难：历史文本的印刷质量参差不齐，导致字符识别与分词准确性下降；嵌套实体标注需要精细的层级划分，增加了标注一致性与标准化的难度；同时，数据规模相对有限，且需平衡不同实体类型的分布，以确保模型训练的泛化能力。这些挑战共同制约了历史文献NER任务的性能提升与广泛应用。

常用场景

经典使用场景

在历史文献数字化与信息抽取领域，该数据集为嵌套命名实体识别任务提供了关键支持。其核心应用场景在于对19世纪巴黎商业名录条目进行结构化解析，通过独立层级方法识别文本中嵌套的实体类型，如人名、公司名、职业活动及地址等。这一过程不仅能够自动化处理大量非结构化历史档案，还为后续的语义分析和知识图谱构建奠定了坚实基础，显著提升了历史资料的可访问性与研究效率。

实际应用

在实际应用中，该数据集支撑的模型能够自动化处理历史档案馆藏，例如将巴黎19世纪的商业名录转化为结构化数据库。这类技术可应用于文化遗产数字化项目，帮助历史学家快速提取人物、职业、地点等关键信息，辅助社会网络分析或经济史研究。同时，其方法也可迁移至其他语言或领域的嵌套文本分析，如法律文书或生物医学文献的实体抽取，展现出较强的实践扩展性。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于CamemBERT的嵌套NER模型优化研究，例如独立层级架构在法语历史文本上的适应性改进。相关成果进一步推动了层级标注策略在跨语言NER任务中的应用，并启发了对低资源历史语料的序列标注方法探索。这些工作不仅丰富了嵌套实体识别的技术体系，也为数字人文领域提供了可复用的模型框架，促进了语言学与计算机科学的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集