jakot/wnut_17_syp
收藏Hugging Face2023-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jakot/wnut_17_syp
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': B-corporation
'2': I-corporation
'3': B-creative-work
'4': I-creative-work
'5': B-group
'6': I-group
'7': B-location
'8': I-location
'9': B-person
'10': I-person
'11': B-product
'12': I-product
splits:
- name: train
num_bytes: 1060556
num_examples: 3394
- name: validation
num_bytes: 259353
num_examples: 1009
- name: test
num_bytes: 388062
num_examples: 1287
- name: train1
num_bytes: 530278.0
num_examples: 1697
- name: train2
num_bytes: 530278.0
num_examples: 1697
- name: val1
num_bytes: 129547.98017839446
num_examples: 504
- name: val2
num_bytes: 129805.01982160554
num_examples: 505
download_size: 844238
dataset_size: 3027880.0
---
# Dataset Card for "wnut_17_syp"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:id
数据类型:字符串
- 名称:词元(Token)序列
数据类型:字符串序列
- 名称:命名实体识别标签序列
序列类型:类别标签
类别名称映射:
'0': O
'1': B-公司实体
'2': I-公司实体
'3': B-创意作品实体
'4': I-创意作品实体
'5': B-团体实体
'6': I-团体实体
'7': B-地点实体
'8': I-地点实体
'9': B-人物实体
'10': I-人物实体
'11': B-产品实体
'12': I-产品实体
数据集划分:
- 名称:train(训练集)
字节大小:1060556
样本数量:3394
- 名称:validation(验证集)
字节大小:259353
样本数量:1009
- 名称:test(测试集)
字节大小:388062
样本数量:1287
- 名称:train1(训练子集1)
字节大小:530278.0
样本数量:1697
- 名称:train2(训练子集2)
字节大小:530278.0
样本数量:1697
- 名称:val1(验证子集1)
字节大小:129547.98017839446
样本数量:504
- 名称:val2(验证子集2)
字节大小:129805.01982160554
样本数量:505
下载大小:844238
数据集总大小:3027880.0
# 数据集卡片:"wnut_17_syp"
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
jakot
原始信息汇总
数据集概述
数据集名称
wnut_17_syp
数据集特征
- id: 字符串类型
- tokens: 字符串序列类型
- ner_tags: 序列类型,包含以下类别标签:
- 0: O
- 1: B-corporation
- 2: I-corporation
- 3: B-creative-work
- 4: I-creative-work
- 5: B-group
- 6: I-group
- 7: B-location
- 8: I-location
- 9: B-person
- 10: I-person
- 11: B-product
- 12: I-product
数据集分割
- train: 3394个样本,1060556字节
- validation: 1009个样本,259353字节
- test: 1287个样本,388062字节
- train1: 1697个样本,530278.0字节
- train2: 1697个样本,530278.0字节
- val1: 504个样本,129547.98017839446字节
- val2: 505个样本,129805.01982160554字节
数据集大小
- 下载大小: 844238字节
- 数据集总大小: 3027880.0字节



