voidbeholder/medAbbreviationsRU
收藏Hugging Face2024-06-03 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/voidbeholder/medAbbreviationsRU
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在基于俄语生物医学语料库进行自动缩略词消歧,适用于文本分类任务。数据集包含75个生物医学领域的模糊缩略词,每个缩略词的不同含义都有相应的上下文标注。数据集以表格形式呈现,便于使用pandas DataFrame读取。数据集的原始用途包括使用SVM和RuBioBERT进行分类,其中SVM实现的准确率和F1分数为93%,RuBioBERT的准确率和F1分数为0.976%。
该数据集旨在基于俄语生物医学语料库进行自动缩略词消歧,适用于文本分类任务。数据集包含75个生物医学领域的模糊缩略词,每个缩略词的不同含义都有相应的上下文标注。数据集以表格形式呈现,便于使用pandas DataFrame读取。数据集的原始用途包括使用SVM和RuBioBERT进行分类,其中SVM实现的准确率和F1分数为93%,RuBioBERT的准确率和F1分数为0.976%。
提供机构:
voidbeholder
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本分类
- 语言: 俄语
- 标签: 生物学, 医学, 化学
数据集描述
- 目的: 用于俄语生物医学文本中的缩略语消歧
- 来源: 圣彼得堡国立大学计算与应用语言学系硕士论文
- 论文标题: 基于俄语医学语料库的自动缩略语消歧
- 作者: Polina Gousyatskaya
数据集内容与结构
- 缩略语数量: 75个
- 缩略语特性:
- 50个二义性缩略语
- 16个三义性缩略语
- 3个四义性缩略语
- 2个五义性缩略语
- 2个六义性缩略语
- 1个七义性缩略语
- 1个九义性缩略语
- 1个十一义性缩略语
- 数据结构: 表格格式,包含缩略语、上下文和意义编号
原始用途
- 分类方法: 使用SVM和RuBioBERT对缩略语的上下文进行分类
- 性能指标:
- SVM: 准确率和F1值达到93%
- RuBioBERT: 准确率和F1值达到0.976%



