five

Biomedical-TeMU/SPACCC_Tokenizer

收藏
Hugging Face2022-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Biomedical-TeMU/SPACCC_Tokenizer
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个用于西班牙语临床病例的Tokenizer模型。模型使用SPACCC_TOKEN语料库进行训练,训练集包含900个临床病例,测试集包含100个临床病例。模型使用Apache OpenNLP工具包构建,并提供了训练集、测试集和黄金标准数据集。模型在评估中表现出色,准确率达到99.88%,召回率达到99.83%,F1值为99.85%。
提供机构:
Biomedical-TeMU
原始信息汇总

数据集概述

数据集名称

The Tokenizer for Clinical Cases Written in Spanish

数据集内容

  • 模型训练: 使用SPACCC_TOKEN corpus的90%(900临床案例)进行训练。
  • 模型测试: 使用剩余10%(100临床案例)进行测试。
  • 模型用途: 用于西班牙语生物医学文档,特别是临床案例的tokenization。

技术细节

  • 开发工具: 使用Apache OpenNLP 1.8.4版本。
  • 编程语言: Java SE 1.8。

目录结构

  • exec/: 包含可执行文件Tokenizer.jar,用于文档tokenization。
  • gold_standard/: 包含用于评估模型性能的临床案例。
  • model/: 包含tokenization模型文件es-tokenization-model-spaccc.bin。
  • src/: 包含模型创建和评估的源代码,以及使用示例。
  • test_set/: 包含用于评估模型性能的临床案例。
  • train_set/: 包含用于构建模型的临床案例。
  • train_set_docs/: 包含用于构建模型的临床案例,每个记录的句子已分割。

使用方法

  • 命令行: java -jar Tokenizer.jar INPUT_FILE MODEL_FILE

模型评估

  • 评估指标:
    • 精确度: 99.88%
    • 召回率: 99.83%
    • F-Measure: 99.85%

许可证

  • 许可证类型: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作