grimu/wikiner-fr-bme
收藏Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimu/wikiner-fr-bme
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: tokens
sequence: string
- name: ner_tags
sequence:
class_label:
names:
'0': O
'1': LOC
'2': PER
'3': MISC
'4': ORG
- name: one_hot
sequence:
sequence:
sequence: float64
- name: ner_padded
sequence: int64
splits:
- name: train
num_bytes: 91935318915
num_examples: 114215
download_size: 86123839
dataset_size: 91935318915
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
1. 编号(id):数据类型为64位整型(int64)
2. 词元(tokens):字符串序列
3. 命名实体识别标签(ner_tags):序列型分类标签,其类别映射关系如下:0对应O(非实体),1对应LOC(地点),2对应PER(人物),3对应MISC(混合实体),4对应ORG(组织)
4. 独热编码(one_hot):三维64位浮点型(float64)序列
5. 填充后命名实体识别标签(ner_padded):64位整型(int64)序列
数据集划分:
- 训练集(train):占用字节数为91935318915,样本总数为114215
该数据集的下载大小为86123839字节,数据集总存储大小为91935318915字节
配置项:
- 默认配置(default):对应的数据文件为训练划分下的`data/train-*`路径文件
提供机构:
grimu
原始信息汇总
数据集概述
数据特征
- id: 数据类型为
int64。 - tokens: 序列类型,数据类型为
string。 - ner_tags: 序列类型,包含类别标签:
0: O1: LOC2: PER3: MISC4: ORG
- one_hot: 序列类型,嵌套序列,数据类型为
float64。 - ner_padded: 序列类型,数据类型为
int64。
数据分割
- train: 包含 114215 个样本,总字节数为 91935318915。
数据集大小
- 下载大小: 86123839 字节。
- 数据集大小: 91935318915 字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。



