jage/dataset_from_synthea_for_NER_with_train_val_test_splits
收藏Hugging Face2022-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jage/dataset_from_synthea_for_NER_with_train_val_test_splits
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的数据集,包含训练集、验证集和测试集。数据集的特征包括id、tokens、ner_tags、input_ids、token_type_ids、attention_mask和labels。ner_tags的类别标签包括O、B-DATE、I-DATE、B-NAME、I-NAME、B-AGE和I-AGE。数据集分为test、train和val三个部分,分别包含19176、92300和38138个示例。下载大小为4703482字节,数据集大小为52217334.0字节。
This dataset is intended for Named Entity Recognition (NER) tasks, and it consists of training, validation, and test subsets. The features of the dataset include id, tokens, ner_tags, input_ids, token_type_ids, attention_mask, and labels. The category labels for ner_tags include O, B-DATE, I-DATE, B-NAME, I-NAME, B-AGE, and I-AGE. The dataset is split into three subsets: test, train, and val, which contain 19176, 92300, and 38138 samples respectively. Its download size is 4703482 bytes, and the total dataset size is 52217334.0 bytes.
提供机构:
jage
原始信息汇总
数据集概述
数据集名称
- 名称: dataset_from_synthea_for_NER_with_train_val_test_splits
数据集特征
- id: 字符串类型
- tokens: 字符串序列
- ner_tags: 标签序列,包含以下类别:
- 0: O
- 1: B-DATE
- 2: I-DATE
- 3: B-NAME
- 4: I-NAME
- 5: B-AGE
- 6: I-AGE
- input_ids: 32位整数序列
- token_type_ids: 8位整数序列
- attention_mask: 8位整数序列
- labels: 64位整数序列
数据集分割
- 训练集:
- 样本数量: 92300
- 数据大小: 32139432.0字节
- 验证集:
- 样本数量: 38138
- 数据大小: 13463574.0字节
- 测试集:
- 样本数量: 19176
- 数据大小: 6614328字节
数据集大小
- 下载大小: 4703482字节
- 总数据集大小: 52217334.0字节



