datasciathlete/open-ner-english
收藏Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datasciathlete/open-ner-english
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: entities
list:
- name: entity_mentions
sequence: string
- name: entity_type
dtype: string
- name: spans
sequence:
sequence: int64
- name: text
dtype: string
splits:
- name: train
num_bytes: 72484875.50541525
num_examples: 36711
- name: validation
num_bytes: 18121712.494584758
num_examples: 9178
download_size: 90106463
dataset_size: 90606588.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
数据集信息(dataset_info):
特征(features):
- 字段名:实体(entities),为列表类型,包含以下子字段:
- 实体提及(entity_mentions):字符串序列
- 实体类型(entity_type):数据类型(dtype)为字符串
- 跨度(spans):由64位整数(int64)序列构成的嵌套序列
- 字段名:文本(text),数据类型为字符串
数据集划分(splits):
- 划分名称:训练集(train),字节大小:72484875.50541525,样本数量:36711
- 划分名称:验证集(validation),字节大小:18121712.494584758,样本数量:9178
下载大小(download_size):90106463
数据集总大小(dataset_size):90606588.0
配置项(configs):
- 配置名称(config_name):default(默认配置),数据文件(data_files):
- 训练集划分:对应路径为 data/train-*
- 验证集划分:对应路径为 data/validation-*
提供机构:
datasciathlete
原始信息汇总
数据集概述
数据集特征
- entities
- entity_mentions: 字符串序列
- entity_type: 字符串类型
- spans: 整数序列的序列
- text: 字符串类型
数据集划分
- train
- 字节数: 72484875.50541525
- 样本数: 36711
- validation
- 字节数: 18121712.494584758
- 样本数: 9178
数据集大小
- 下载大小: 90106463 字节
- 数据集大小: 90606588.0 字节
配置
- default
- train: data/train-*
- validation: data/validation-*



