procit001/dutch_firstname_lastname_dataset_6

Name: procit001/dutch_firstname_lastname_dataset_6
Creator: procit001
Published: 2024-07-10 12:44:02
License: 暂无描述

Hugging Face2024-07-10 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/procit001/dutch_firstname_lastname_dataset_6

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于自然语言处理（NLP）任务的数据集，主要包含文本的标记、词性标注、短语标注和命名实体识别（NER）标注。每个样本包含id、tokens、pos_tags、chunk_tags和ner_tags等特征。pos_tags表示词性标注，chunk_tags表示短语标注，ner_tags表示命名实体识别标注。数据集分为训练集、验证集和测试集，分别包含36368、4546和4547个样本。

This dataset is designed for natural language processing (NLP) tasks, primarily containing tokenized text, part-of-speech tags, chunk tags, and named entity recognition (NER) tags. Each sample in the dataset includes features such as id, tokens, pos_tags, chunk_tags, and ner_tags. The pos_tags represent part-of-speech tags, chunk_tags represent chunk tags, and ner_tags represent named entity recognition tags. The dataset is divided into training, validation, and test sets, containing 36,368, 4,546, and 4,547 samples respectively.

提供机构：

procit001

原始信息汇总

数据集概述

特征信息

id: 数据类型为字符串。
tokens: 数据类型为字符串序列。
pos_tags: 数据类型为序列，包含以下类别标签：
- 0: "
- 1:
- 2: #
- 3: $
- 4: (
- 5: )
- 6: ,
- 7: .
- 8: :
- 9: ``
- 10: CC
- 11: CD
- 12: DT
- 13: EX
- 14: FW
- 15: IN
- 16: JJ
- 17: JJR
- 18: JJS
- 19: LS
- 20: MD
- 21: NN
- 22: NNP
- 23: NNPS
- 24: NNS
- 25: NN|SYM
- 26: PDT
- 27: POS
- 28: PRP
- 29: PRP$
- 30: RB
- 31: RBR
- 32: RBS
- 33: RP
- 34: SYM
- 35: TO
- 36: UH
- 37: VB
- 38: VBD
- 39: VBG
- 40: VBN
- 41: VBP
- 42: VBZ
- 43: WDT
- 44: WP
- 45: WP$
- 46: WRB
chunk_tags: 数据类型为序列，包含以下类别标签：
- 0: O
- 1: B-ADJP
- 2: I-ADJP
- 3: B-ADVP
- 4: I-ADVP
- 5: B-CONJP
- 6: I-CONJP
- 7: B-INTJ
- 8: I-INTJ
- 9: B-LST
- 10: I-LST
- 11: B-NP
- 12: I-NP
- 13: B-PP
- 14: I-PP
- 15: B-PRT
- 16: I-PRT
- 17: B-SBAR
- 18: I-SBAR
- 19: B-UCP
- 20: I-UCP
- 21: B-VP
- 22: I-VP
ner_tags: 数据类型为序列，包含以下类别标签：
- 0: O
- 1: B-PER
- 2: I-PER
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC
- 7: B-MISC
- 8: I-MISC

数据集划分

train: 包含36368个样本，大小为2470800字节。
validation: 包含4546个样本，大小为308970字节。
test: 包含4547个样本，大小为308831字节。

数据集大小

下载大小: 900392字节
数据集总大小: 3088601字节

配置信息

config_name: default
- data_files:
  - train: data/train-*
  - validation: data/validation-*
  - test: data/test-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集