argilla/gutenberg_spacy-ner

Name: argilla/gutenberg_spacy-ner
Creator: argilla
Published: 2023-06-28 06:34:37
License: 暂无描述

Hugging Face2023-06-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/argilla/gutenberg_spacy-ner

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: tokens sequence: string - name: prediction list: - name: end dtype: int64 - name: label dtype: string - name: score dtype: float64 - name: start dtype: int64 - name: prediction_agent dtype: string - name: annotation dtype: 'null' - name: annotation_agent dtype: 'null' - name: id dtype: string - name: metadata dtype: 'null' - name: status dtype: string - name: event_timestamp dtype: 'null' - name: metrics struct: - name: annotated struct: - name: mentions sequence: 'null' - name: predicted struct: - name: mentions list: - name: capitalness dtype: string - name: chars_length dtype: int64 - name: density dtype: float64 - name: label dtype: string - name: score dtype: float64 - name: tokens_length dtype: int64 - name: value dtype: string - name: tokens list: - name: capitalness dtype: string - name: char_end dtype: int64 - name: char_start dtype: int64 - name: custom dtype: 'null' - name: idx dtype: int64 - name: length dtype: int64 - name: score dtype: 'null' - name: tag dtype: string - name: value dtype: string - name: tokens_length dtype: int64 - name: vectors struct: - name: mini-lm-sentence-transformers sequence: float64 splits: - name: train num_bytes: 1426424 num_examples: 100 download_size: 389794 dataset_size: 1426424 language: - en --- # Dataset Card for "gutenberg_spacy-ner" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

argilla

原始信息汇总

数据集概述

数据集特征

text：文本内容，数据类型为字符串。
tokens：文本分词结果，数据类型为字符串序列。
prediction：预测结果，包含以下子特征：
- end：结束位置，数据类型为int64。
- label：标签，数据类型为字符串。
- score：得分，数据类型为float64。
- start：开始位置，数据类型为int64。
prediction_agent：预测代理，数据类型为字符串。
annotation：注释，数据类型为null。
annotation_agent：注释代理，数据类型为null。
id：唯一标识符，数据类型为字符串。
metadata：元数据，数据类型为null。
status：状态，数据类型为字符串。
event_timestamp：事件时间戳，数据类型为null。
metrics：度量指标，包含以下子特征：
- annotated：已注释部分，包含子特征：
  - mentions：提及，数据类型为null序列。
- predicted：预测部分，包含子特征：
  - mentions：提及，包含以下子特征：
    - capitalness：首字母大写状态，数据类型为字符串。
    - chars_length：字符长度，数据类型为int64。
    - density：密度，数据类型为float64。
    - label：标签，数据类型为字符串。
    - score：得分，数据类型为float64。
    - tokens_length：分词长度，数据类型为int64。
    - value：值，数据类型为字符串。
- tokens：分词信息，包含以下子特征：
  - capitalness：首字母大写状态，数据类型为字符串。
  - char_end：字符结束位置，数据类型为int64。
  - char_start：字符开始位置，数据类型为int64。
  - custom：自定义信息，数据类型为null。
  - idx：索引，数据类型为int64。
  - length：长度，数据类型为int64。
  - score：得分，数据类型为null。
  - tag：标签，数据类型为字符串。
  - value：值，数据类型为字符串。
- tokens_length：分词长度，数据类型为int64。
vectors：向量信息，包含以下子特征：
- mini-lm-sentence-transformers：句子转换器向量，数据类型为float64序列。

数据集分割

train：训练集，包含100个样本，数据大小为1426424字节。

数据集大小

下载大小：389794字节。
数据集大小：1426424字节。

语言

en：英语。

5,000+

优质数据集

54 个

任务类型

进入经典数据集