five

voidbeholder/medAbbreviationsRU

收藏
Hugging Face2024-06-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/voidbeholder/medAbbreviationsRU
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在基于俄语生物医学语料库进行自动缩略词消歧,适用于文本分类任务。数据集包含75个生物医学领域的模糊缩略词,每个缩略词的不同含义都有相应的上下文标注。数据集以表格形式呈现,便于使用pandas DataFrame读取。数据集的原始用途包括使用SVM和RuBioBERT进行分类,其中SVM实现的准确率和F1分数为93%,RuBioBERT的准确率和F1分数为0.976%。

该数据集旨在基于俄语生物医学语料库进行自动缩略词消歧,适用于文本分类任务。数据集包含75个生物医学领域的模糊缩略词,每个缩略词的不同含义都有相应的上下文标注。数据集以表格形式呈现,便于使用pandas DataFrame读取。数据集的原始用途包括使用SVM和RuBioBERT进行分类,其中SVM实现的准确率和F1分数为93%,RuBioBERT的准确率和F1分数为0.976%。
提供机构:
voidbeholder
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本分类
  • 语言: 俄语
  • 标签: 生物学, 医学, 化学

数据集描述

  • 目的: 用于俄语生物医学文本中的缩略语消歧
  • 来源: 圣彼得堡国立大学计算与应用语言学系硕士论文
  • 论文标题: 基于俄语医学语料库的自动缩略语消歧
  • 作者: Polina Gousyatskaya

数据集内容与结构

  • 缩略语数量: 75个
  • 缩略语特性:
    • 50个二义性缩略语
    • 16个三义性缩略语
    • 3个四义性缩略语
    • 2个五义性缩略语
    • 2个六义性缩略语
    • 1个七义性缩略语
    • 1个九义性缩略语
    • 1个十一义性缩略语
  • 数据结构: 表格格式,包含缩略语、上下文和意义编号

原始用途

  • 分类方法: 使用SVM和RuBioBERT对缩略语的上下文进行分类
  • 性能指标:
    • SVM: 准确率和F1值达到93%
    • RuBioBERT: 准确率和F1值达到0.976%
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作