andrewrreed/fewnerd-person-names-augmented
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andrewrreed/fewnerd-person-names-augmented
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-PER
'2': I-PER
splits:
- name: train
num_bytes: 42959061.57005247
num_examples: 122254
- name: validation
num_bytes: 4086233.0513204616
num_examples: 20417
- name: test
num_bytes: 8454146.29895592
num_examples: 32293
download_size: 14382598
dataset_size: 55499440.92032885
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征项:
- 名称为 Token(tokens),类型为字符串序列
- 名称为 命名实体识别标签(ner_tags),类型为序列分类标签,其类别映射如下:
'0': O(非实体标记)
'1': B-PER(人名实体起始标记)
'2': I-PER(人名实体内部标记)
数据划分:
- 训练集(train):数据大小为42959061.57005247字节,样本数量为122254
- 验证集(validation):数据大小为4086233.0513204616字节,样本数量为20417
- 测试集(test):数据大小为8454146.29895592字节,样本数量为32293
下载总大小:14382598字节
数据集总存储大小:55499440.92032885字节
配置信息:
- 配置名称:默认(default),对应的数据文件路径如下:
- 训练集(train):data/train-*
- 验证集(validation):data/validation-*
- 测试集(test):data/test-*
提供机构:
andrewrreed
原始信息汇总
数据集概述
特征信息
- tokens: 字符串序列
- ner_tags: 序列标签,包含以下类别:
- 0: O
- 1: B-PER
- 2: I-PER
数据分割
- train:
- 字节数: 42959061.57005247
- 样本数: 122254
- validation:
- 字节数: 4086233.0513204616
- 样本数: 20417
- test:
- 字节数: 8454146.29895592
- 样本数: 32293
数据集大小
- 下载大小: 14382598 字节
- 数据集大小: 55499440.92032885 字节
配置信息
- config_name: default
- data_files:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*



