LS_Llama-3.1-8B_ncbi_disease_NoQuant_64_16_0.05_64_BestF1

Hugging Face2024-12-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ferrazzipietro/LS_Llama-3.1-8B_ncbi_disease_NoQuant_64_16_0.05_64_BestF1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如id、tokens、ner_tags、input_ids、attention_mask、labels、sentence、predictions和ground_truth_labels。其中，tokens和ner_tags是序列特征，ner_tags有特定的类别标签，如'O'、'B-Disease'和'I-Disease'。数据集分为validation和test两个部分，分别包含924和941个样本。数据集的下载大小为459931字节，总大小为2680979字节。

创建时间：

2024-12-08

原始信息汇总

数据集概述

数据集信息

特征（features）:
- id: 数据类型为字符串（string）。
- tokens: 序列类型，数据类型为字符串（string）。
- ner_tags: 序列类型，包含类别标签（class_label），标签名称为：
  - 0: O
  - 1: B-Disease
  - 2: I-Disease
- input_ids: 序列类型，数据类型为整数（int32）。
- attention_mask: 序列类型，数据类型为整数（int8）。
- labels: 序列类型，数据类型为整数（int64）。
- sentence: 数据类型为字符串（string）。
- predictions: 序列类型，数据类型为字符串（string）。
- ground_truth_labels: 序列类型，数据类型为字符串（string）。

数据集分割（splits）

validation:
- 字节数: 1324829
- 样本数: 924
test:
- 字节数: 1356150
- 样本数: 941

数据集大小

下载大小: 459931 字节
数据集大小: 2680979 字节

配置（configs）

config_name: default
- 数据文件（data_files）:
  - validation: 路径为 data/validation-*
  - test: 路径为 data/test-*

搜集汇总

数据集介绍

构建方式

该数据集LS_Llama-3.1-8B_ncbi_disease_NoQuant_64_16_0.05_64_BestF1的构建基于对NCBI疾病数据库的深度解析，通过特定的预处理流程，将原始文本数据转化为结构化的标注信息。具体而言，数据集包含了多个特征字段，如'id'、'tokens'、'ner_tags'等，其中'ner_tags'用于标识疾病实体的边界和类型。此外，数据集还包含了用于模型训练和评估的'input_ids'、'attention_mask'等序列化特征。

特点

该数据集的显著特点在于其专注于疾病命名实体识别（NER）任务，提供了详细的实体标注信息，涵盖了疾病实体的开始（B-Disease）和内部（I-Disease）标签。此外，数据集的结构化设计使得其适用于多种自然语言处理模型，特别是那些需要序列标注的任务。数据集的分片设计（validation和test）确保了模型评估的全面性和准确性。

使用方法

使用该数据集时，用户可以通过加载'validation'和'test'分片来进行模型的验证和测试。数据集提供了丰富的特征字段，如'tokens'、'ner_tags'等，可以直接用于模型的输入和输出。此外，'input_ids'和'attention_mask'等序列化特征可以与现有的深度学习框架无缝集成，便于进行端到端的模型训练和评估。

背景与挑战

背景概述

LS_Llama-3.1-8B_ncbi_disease_NoQuant_64_16_0.05_64_BestF1数据集是由某研究团队或机构创建，专注于生物医学领域的命名实体识别（NER）任务。该数据集的构建旨在解决生物医学文本中疾病名称的自动识别问题，这对于医学文献的自动化处理和信息提取具有重要意义。通过提供详细的标注信息，包括疾病实体的开始和内部标记，该数据集为研究人员提供了一个标准化的基准，以评估和改进NER模型在生物医学领域的性能。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1) 生物医学文本的复杂性和专业性，要求模型具备高度的领域知识；2) 疾病名称的多样性和变异性，增加了实体识别的难度；3) 数据标注的一致性和准确性，确保训练数据的可靠性。此外，如何在有限的标注数据上实现高效的模型训练，以及如何处理长尾疾病名称的识别问题，也是该数据集面临的实际挑战。

常用场景

经典使用场景

LS_Llama-3.1-8B_ncbi_disease_NoQuant_64_16_0.05_64_BestF1数据集在生物医学领域中被广泛用于疾病命名实体识别（NER）任务。该数据集通过提供详细的标注信息，包括疾病实体的开始和内部标记，使得研究者能够训练和评估模型在识别医学文本中的疾病相关信息的能力。其经典使用场景包括构建和优化生物医学文本处理模型，特别是在自动提取和分类疾病相关信息方面。

解决学术问题

该数据集解决了生物医学文本处理中的关键学术问题，即如何准确识别和分类文本中的疾病命名实体。通过提供高质量的标注数据，它为研究者提供了一个标准化的基准，用于评估和比较不同模型的性能。这不仅推动了生物医学信息学领域的发展，还为开发更高效的临床决策支持系统奠定了基础。

衍生相关工作

基于LS_Llama-3.1-8B_ncbi_disease_NoQuant_64_16_0.05_64_BestF1数据集，研究者们开发了多种先进的命名实体识别模型，并在多个生物医学文本处理任务中取得了显著成果。例如，一些研究工作利用该数据集训练的模型在生物医学文献摘要的自动生成和疾病相关信息的语义搜索中表现出色。此外，该数据集还促进了跨领域的研究，如结合自然语言处理和机器学习的个性化医疗方案设计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集