five

jage/dataset_from_synthea_for_NER_with_train_val_test_splits

收藏
Hugging Face2022-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jage/dataset_from_synthea_for_NER_with_train_val_test_splits
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的数据集,包含训练集、验证集和测试集。数据集的特征包括id、tokens、ner_tags、input_ids、token_type_ids、attention_mask和labels。ner_tags的类别标签包括O、B-DATE、I-DATE、B-NAME、I-NAME、B-AGE和I-AGE。数据集分为test、train和val三个部分,分别包含19176、92300和38138个示例。下载大小为4703482字节,数据集大小为52217334.0字节。

This dataset is intended for Named Entity Recognition (NER) tasks, and it consists of training, validation, and test subsets. The features of the dataset include id, tokens, ner_tags, input_ids, token_type_ids, attention_mask, and labels. The category labels for ner_tags include O, B-DATE, I-DATE, B-NAME, I-NAME, B-AGE, and I-AGE. The dataset is split into three subsets: test, train, and val, which contain 19176, 92300, and 38138 samples respectively. Its download size is 4703482 bytes, and the total dataset size is 52217334.0 bytes.
提供机构:
jage
原始信息汇总

数据集概述

数据集名称

  • 名称: dataset_from_synthea_for_NER_with_train_val_test_splits

数据集特征

  • id: 字符串类型
  • tokens: 字符串序列
  • ner_tags: 标签序列,包含以下类别:
    • 0: O
    • 1: B-DATE
    • 2: I-DATE
    • 3: B-NAME
    • 4: I-NAME
    • 5: B-AGE
    • 6: I-AGE
  • input_ids: 32位整数序列
  • token_type_ids: 8位整数序列
  • attention_mask: 8位整数序列
  • labels: 64位整数序列

数据集分割

  • 训练集:
    • 样本数量: 92300
    • 数据大小: 32139432.0字节
  • 验证集:
    • 样本数量: 38138
    • 数据大小: 13463574.0字节
  • 测试集:
    • 样本数量: 19176
    • 数据大小: 6614328字节

数据集大小

  • 下载大小: 4703482字节
  • 总数据集大小: 52217334.0字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作