oualidlamrini/conll2003_dataset_french_ner
收藏Hugging Face2024-06-25 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/oualidlamrini/conll2003_dataset_french_ner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于命名实体识别(NER)任务的文本数据,主要特征包括tokens和ner_tags。tokens是字符串序列,而ner_tags是包含多个类标签的序列,每个标签对应一个特定的命名实体识别类别,如人名、性别、出生地点等。数据集分为训练集、验证集和测试集,分别包含173、35和24个示例。
该数据集包含用于命名实体识别(NER)任务的文本数据,主要特征包括tokens和ner_tags。tokens是字符串序列,而ner_tags是包含多个类标签的序列,每个标签对应一个特定的命名实体识别类别,如人名、性别、出生地点等。数据集分为训练集、验证集和测试集,分别包含173、35和24个示例。
提供机构:
oualidlamrini
原始信息汇总
数据集概述
许可证
- MIT
数据集信息
特征
- tokens: 字符串序列
- ner_tags: 命名实体识别标签序列
- 标签名称及其对应值:
- 0: O
- 1: B-nom
- 2: I-nom
- 3: B-prenom
- 4: I-prenom
- 5: B-sexe
- 6: I-sexe
- 7: B-lieu_naissance
- 8: I-lieu_naissance
- 9: B-date_naissance
- 10: I-date_naissance
- 11: B-nom_d_usage
- 12: I-nom_d_usage
- 13: B-adresse
- 14: I-adresse
- 标签名称及其对应值:
数据分割
- train:
- 字节数: 145188
- 样本数: 173
- validation:
- 字节数: 28368
- 样本数: 35
- test:
- 字节数: 18592
- 样本数: 24
数据集大小
- 下载大小: 55775 字节
- 数据集总大小: 192148 字节
配置
- config_name: default
- 数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
- 数据文件路径:



