Biomedical-TeMU/SPACCC_Tokenizer

Name: Biomedical-TeMU/SPACCC_Tokenizer
Creator: Biomedical-TeMU
Published: 2022-03-11 02:18:16
License: 暂无描述

Hugging Face2022-03-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Biomedical-TeMU/SPACCC_Tokenizer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个用于西班牙语临床病例的Tokenizer模型。模型使用SPACCC_TOKEN语料库进行训练，训练集包含900个临床病例，测试集包含100个临床病例。模型使用Apache OpenNLP工具包构建，并提供了训练集、测试集和黄金标准数据集。模型在评估中表现出色，准确率达到99.88%，召回率达到99.83%，F1值为99.85%。

提供机构：

Biomedical-TeMU

原始信息汇总

数据集概述

数据集名称

The Tokenizer for Clinical Cases Written in Spanish

数据集内容

模型训练: 使用SPACCC_TOKEN corpus的90%（900临床案例）进行训练。
模型测试: 使用剩余10%（100临床案例）进行测试。
模型用途: 用于西班牙语生物医学文档，特别是临床案例的tokenization。

技术细节

开发工具: 使用Apache OpenNLP 1.8.4版本。
编程语言: Java SE 1.8。

目录结构

exec/: 包含可执行文件Tokenizer.jar，用于文档tokenization。
gold_standard/: 包含用于评估模型性能的临床案例。
model/: 包含tokenization模型文件es-tokenization-model-spaccc.bin。
src/: 包含模型创建和评估的源代码，以及使用示例。
test_set/: 包含用于评估模型性能的临床案例。
train_set/: 包含用于构建模型的临床案例。
train_set_docs/: 包含用于构建模型的临床案例，每个记录的句子已分割。

使用方法

命令行: java -jar Tokenizer.jar INPUT_FILE MODEL_FILE

模型评估

评估指标:
- 精确度: 99.88%
- 召回率: 99.83%
- F-Measure: 99.85%

许可证

许可证类型: Creative Commons Attribution 4.0 International License (CC-BY-4.0)

5,000+

优质数据集

54 个

任务类型

进入经典数据集