VietBioNER

github2022-05-01 更新2024-05-31 收录

下载链接：

https://github.com/ptpuyen1511/VietBioNER

下载链接

链接失效反馈

官方服务：

资源简介：

VietBioNER是一个专注于结核病的越南生物医学灰色文献构成的命名实体识别数据集。该数据集被标注了五个实体类别：组织、地点、日期和时间、症状和疾病、诊断程序。

VietBioNER is a named entity recognition dataset composed of Vietnamese biomedical gray literature focusing on tuberculosis. The dataset is annotated with five entity categories: organizations, locations, dates and times, symptoms and diseases, and diagnostic procedures.

创建时间：

2022-03-28

原始信息汇总

数据集概述

数据集名称

VietBioNER

数据集内容

领域：生物医学，专注于结核病。
文本类型：灰色文献。
实体类别：组织、位置、日期和时间、症状和疾病、诊断程序。

数据集结构

句子数量：1706句。
平均句子长度：31个词。
实体分布：约74%的句子包含标注实体。

数据集划分

监督学习设置：
- 训练集：706句。
- 验证集：300句。
- 测试集：700句。
小样本学习设置：
- 1-shot：每个类别1个实体。
- 5-shot：每个类别5个实体。
- 10-shot：每个类别10个实体。

数据集文件

监督学习数据：位于data_supervised_learning/目录。
小样本学习数据：位于data_fewshot_learning/目录。
原始brat格式文件：位于data_brat/目录。

数据集许可证

许可证：Creative Commons Attribution 4.0 International License

搜集汇总

数据集介绍

构建方式

VietBioNER数据集的构建基于越南生物医学领域的灰色文献，特别聚焦于结核病相关文本。该数据集通过人工标注的方式，标注了五类命名实体，包括组织、地点、日期与时间、症状与疾病以及诊断程序。数据集的构建过程在LREC 2022会议论文中进行了详细描述，确保了标注的准确性和一致性。数据集包含1706个句子，平均每个句子包含31个词，其中约74%的句子包含至少一个标注实体。

特点

VietBioNER数据集的特点在于其专注于越南语生物医学文本，特别是结核病领域的命名实体识别。数据集中包含的五类实体涵盖了生物医学文本中常见的核心信息，如症状、疾病、诊断程序等。数据集的实体分布较为均衡，确保了模型训练的多样性。此外，数据集还提供了监督学习和少样本学习两种基准设置，分别适用于不同的研究需求。监督学习设置中，数据集被划分为训练集、验证集和测试集，比例为7:3:7；少样本学习设置则提供了1-shot、5-shot和10-shot的支持集，便于研究者在低资源场景下进行实验。

使用方法

VietBioNER数据集的使用方法灵活多样，适用于多种自然语言处理任务。在监督学习设置中，研究者可以直接使用提供的训练集、验证集和测试集进行模型训练与评估。对于少样本学习任务，数据集提供了1-shot、5-shot和10-shot的支持集，研究者可以根据需求选择不同的支持集进行实验。此外，数据集还提供了原始的brat格式文件，便于研究者进行自定义标注或进一步的数据处理。数据集的开放性和多样性使其成为越南语生物医学命名实体识别研究的重要资源。

背景与挑战

背景概述

VietBioNER数据集是一个专门针对越南语生物医学文本的命名实体识别（NER）语料库，主要聚焦于结核病领域的灰色文献。该数据集由Phan Uyen、Nguyen Phuong和Nguyen Nhung等研究人员于2022年构建，并在第13届语言资源与评估会议（LREC 2022）上发布。VietBioNER标注了五类命名实体，包括组织、地点、日期与时间、症状与疾病以及诊断程序。该数据集的构建旨在支持结核病治疗相关的研究，为越南语生物医学文本的自动处理提供了重要资源，推动了该领域的研究进展。

当前挑战

VietBioNER数据集在构建和应用过程中面临多重挑战。首先，越南语作为一种低资源语言，其生物医学文本的标注资源稀缺，导致数据集的构建需要大量的人工标注工作。其次，生物医学领域的术语复杂且多样化，尤其是结核病相关的症状和诊断程序，标注过程中需要高度的专业知识。此外，数据集的规模相对较小，尽管包含1706个句子，但在深度学习模型的训练中可能面临数据不足的问题。最后，如何在少样本学习（Few-shot Learning）场景下有效利用该数据集，仍是一个亟待解决的难题。

常用场景

经典使用场景

VietBioNER数据集在越南生物医学文本的命名实体识别（NER）任务中展现了其独特的价值。该数据集特别针对结核病相关的灰色文献，涵盖了组织、地点、日期与时间、症状与疾病以及诊断程序等五大实体类别。通过提供高质量的标注数据，VietBioNER为研究人员在越南语生物医学领域的NER模型训练与评估提供了坚实的基础。

衍生相关工作

VietBioNER的发布催生了一系列相关研究工作，特别是在越南语生物医学文本处理领域。基于该数据集，研究者开发了多种先进的NER模型，如基于Transformer的预训练语言模型和少样本学习算法。这些工作不仅提升了越南语NER的性能，还为其他低资源语言的生物医学文本处理提供了借鉴。此外，VietBioNER还被用于跨语言迁移学习研究，推动了多语言生物医学信息抽取技术的发展。

数据集最近研究