ferrazzipietro/unLS_Llama-2-7b-hf_ncbi_disease_NoQuant_32_32_0.05_64_BestF1
收藏Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/ferrazzipietro/unLS_Llama-2-7b-hf_ncbi_disease_NoQuant_32_32_0.05_64_BestF1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于命名实体识别任务,特别是与疾病相关的实体识别。数据集包含以下特征字段:id(唯一标识符)、tokens(文本标记序列)、ner_tags(命名实体识别标签序列,包括O、B-Disease和I-Disease)、input_ids(输入ID序列)、attention_mask(注意力掩码序列)、labels(标签序列)、sentence(句子文本)、predictions(预测结果序列)和ground_truth_labels(真实标签序列)。数据集仅包含测试集,测试集包含924个样本,总大小为1385467字节。
This dataset is primarily used for named entity recognition tasks, particularly for disease-related entity recognition. The dataset includes the following feature fields: id (unique identifier), tokens (sequence of text tokens), ner_tags (sequence of named entity recognition tags, including O, B-Disease, and I-Disease), input_ids (sequence of input IDs), attention_mask (sequence of attention masks), labels (sequence of labels), sentence (sentence text), predictions (sequence of predictions), and ground_truth_labels (sequence of ground truth labels). The dataset only includes a test set, which contains 924 samples with a total size of 1385467 bytes.
提供机构:
ferrazzipietro
原始信息汇总
数据集概述
数据集信息
特征
- id: 类型为字符串。
- tokens: 类型为字符串序列。
- ner_tags: 类型为序列,包含类别标签:
- 0: O
- 1: B-Disease
- 2: I-Disease
- input_ids: 类型为32位整数序列。
- attention_mask: 类型为8位整数序列。
- labels: 类型为64位整数序列。
- sentence: 类型为字符串。
- predictions: 类型为字符串序列。
- ground_truth_labels: 类型为字符串序列。
数据分割
- test: 包含924个样本,总字节数为1385467。
数据集大小
- 下载大小: 244606字节。
- 数据集大小: 1385467字节。
配置
- config_name: default
- data_files:
- split: test
- path: data/test-*
- data_files:



