Biomedical-TeMU/SPACCC_Tokenizer
收藏Hugging Face2022-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Biomedical-TeMU/SPACCC_Tokenizer
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个用于西班牙语临床病例的Tokenizer模型。模型使用SPACCC_TOKEN语料库进行训练,训练集包含900个临床病例,测试集包含100个临床病例。模型使用Apache OpenNLP工具包构建,并提供了训练集、测试集和黄金标准数据集。模型在评估中表现出色,准确率达到99.88%,召回率达到99.83%,F1值为99.85%。
提供机构:
Biomedical-TeMU
原始信息汇总
数据集概述
数据集名称
The Tokenizer for Clinical Cases Written in Spanish
数据集内容
- 模型训练: 使用SPACCC_TOKEN corpus的90%(900临床案例)进行训练。
- 模型测试: 使用剩余10%(100临床案例)进行测试。
- 模型用途: 用于西班牙语生物医学文档,特别是临床案例的tokenization。
技术细节
- 开发工具: 使用Apache OpenNLP 1.8.4版本。
- 编程语言: Java SE 1.8。
目录结构
- exec/: 包含可执行文件Tokenizer.jar,用于文档tokenization。
- gold_standard/: 包含用于评估模型性能的临床案例。
- model/: 包含tokenization模型文件es-tokenization-model-spaccc.bin。
- src/: 包含模型创建和评估的源代码,以及使用示例。
- test_set/: 包含用于评估模型性能的临床案例。
- train_set/: 包含用于构建模型的临床案例。
- train_set_docs/: 包含用于构建模型的临床案例,每个记录的句子已分割。
使用方法
- 命令行:
java -jar Tokenizer.jar INPUT_FILE MODEL_FILE
模型评估
- 评估指标:
- 精确度: 99.88%
- 召回率: 99.83%
- F-Measure: 99.85%
许可证
- 许可证类型: Creative Commons Attribution 4.0 International License (CC-BY-4.0)



