five

nlpso/m1_qualitative_analysis_ocr_ptrn_cmbert_iob2

收藏
Hugging Face2023-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nlpso/m1_qualitative_analysis_ocr_ptrn_cmbert_iob2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于对[HueyNemud/das22-10-camembert_pretrained]模型在嵌套NER任务上进行定性分析,使用了独立的NER层方法[M1]。数据集包含19世纪巴黎的贸易目录条目。数据集参数包括方法(M1)、数据集类型(noisy,Pero OCR)、分词器([HueyNemud/das22-10-camembert_pretrained])、标记格式(IOB2)、数据量(训练集6084,开发集676,测试集1685)以及相关的微调模型。实体类型包括人物或公司名称(PER)、人物或公司专业活动(ACT)、军事或民事区别(TITREH)、条目完整描述(DESC)、专业奖励(TITREP)、地址(SPAT)、街道名称(LOC)、街道号码(CARDINAL)和地理特征(FT)。

This dataset is employed for qualitative analysis of the [HueyNemud/das22-10-camembert_pretrained] model on nested named entity recognition (NER) tasks, adopting the independent NER layer approach [M1]. The dataset consists of trade catalog entries from 19th-century Paris. Its parameters include the method (M1), dataset type (noisy, Pero OCR), tokenizer ([HueyNemud/das22-10-camembert_pretrained]), tagging format (IOB2), dataset size (6084 training samples, 676 validation samples, 1685 test samples), and the associated fine-tuned model. Entity types cover person or company names (PER), professional activities of individuals or enterprises (ACT), military or civil distinctions (TITREH), full descriptions of entries (DESC), professional honors (TITREP), addresses (SPAT), street names (LOC), street numbers (CARDINAL), and geographical features (FT).
提供机构:
nlpso
原始信息汇总

m1_qualitative_analysis_ocr_ptrn_cmbert_iob2 数据集概述

数据集描述

数据集参数

实体类型

缩写 实体组级别 描述
O 1 & 2 非实体部分
PER 1 人物或公司名称
ACT 1 & 2 人物或公司职业活动
TITREH 2 军事或民事区分
DESC 1 条目全描述
TITREP 2 职业奖励
SPAT 1 地址
LOC 2 街道名称
CARDINAL 2 街道号码
FT 2 地理特征

如何使用数据集

python from datasets import load_dataset

train_dev_test = load_dataset("nlpso/m1_qualitative_analysis_ocr_ptrn_cmbert_iob2")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作