lltala/e-ner-roberta-base

Name: lltala/e-ner-roberta-base
Creator: lltala
Published: 2023-10-24 15:17:03
License: 暂无描述

Hugging Face2023-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lltala/e-ner-roberta-base

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: doc_id dtype: string - name: id dtype: string - name: ner_tags sequence: class_label: names: '0': O '1': B-PER '2': I-PER '3': B-ORG '4': I-ORG '5': B-LOC '6': I-LOC - name: tokens sequence: string splits: - name: train num_bytes: 6380478 num_examples: 840 - name: validation num_bytes: 676038 num_examples: 90 download_size: 776863 dataset_size: 7056516 --- # Dataset Card for "e-ner-roberta-base" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

lltala

原始信息汇总

数据集概述

配置

默认配置（default）包含以下数据文件：
- 训练集（train）：路径为 data/train-*
- 验证集（validation）：路径为 data/validation-*

数据集信息

特征：
- doc_id：数据类型为字符串（string）
- id：数据类型为字符串（string）
- ner_tags：序列类型，包含类别标签：
  - 0: O
  - 1: B-PER
  - 2: I-PER
  - 3: B-ORG
  - 4: I-ORG
  - 5: B-LOC
  - 6: I-LOC
- tokens：序列类型，数据类型为字符串（string）
分割：
- 训练集（train）：字节数为 6380478，样本数为 840
- 验证集（validation）：字节数为 676038，样本数为 90
大小：
- 下载大小：776863 字节
- 数据集大小：7056516 字节

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于命名实体识别（NER）的文本数据集，包含930行标注数据，分为840行训练集和90行验证集。数据格式为parquet，涉及金融、法律和医疗等领域的文本，具有序列化的tokens和ner_tags列，适用于训练或微调基于RoBERTa的NER模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集