ashwathjadhav23/conill2003_filtered_entities
收藏Hugging Face2023-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ashwathjadhav23/conill2003_filtered_entities
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-PER
'2': I-PER
'3': B-ORG
'4': I-ORG
'5': B-LOC
'6': I-LOC
'7': B-MISC
'8': I-MISC
splits:
- name: train
num_bytes: 680716.5731785485
num_examples: 2684
- name: validation
num_bytes: 891431
num_examples: 3250
- name: test
num_bytes: 811470
num_examples: 3453
download_size: 643826
dataset_size: 2383617.5731785484
---
# Dataset Card for "conill2003_filtered_entities"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征项:
- 名称:id,数据类型:字符串
- 名称:词元(Token)序列,数据类型为字符串序列
- 名称:NER标签(命名实体识别标签,Named Entity Recognition Tags),数据类型为分类标签序列,其类别命名规则如下:
'0':O(非实体)
'1':B-PER(人物实体起始标记)
'2':I-PER(人物实体内部标记)
'3':B-ORG(组织实体起始标记)
'4':I-ORG(组织实体内部标记)
'5':B-LOC(地点实体起始标记)
'6':I-LOC(地点实体内部标记)
'7':B-MISC(杂类实体起始标记)
'8':I-MISC(杂类实体内部标记)
数据集划分:
- 名称:训练集(train),字节大小:680716.5731785485,样本总数:2684
- 名称:验证集(validation),字节大小:891431,样本总数:3250
- 名称:测试集(test),字节大小:811470,样本总数:3453
下载大小:643826字节
总数据集大小:2383617.5731785484字节
---
# 「conll2003_filtered_entities」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ashwathjadhav23
原始信息汇总
数据集概述
数据集名称
- 名称: conill2003_filtered_entities
数据集特征
- id: 字符串类型
- tokens: 字符串序列类型
- ner_tags: 序列类型,包含以下类别标签:
- 0: O
- 1: B-PER
- 2: I-PER
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC
- 7: B-MISC
- 8: I-MISC
数据集划分
- 训练集:
- 样本数: 2684
- 数据大小: 680716.5731785485字节
- 验证集:
- 样本数: 3250
- 数据大小: 891431字节
- 测试集:
- 样本数: 3453
- 数据大小: 811470字节
数据集大小
- 下载大小: 643826字节
- 总数据集大小: 2383617.5731785484字节



