Biomedical-TeMU/SPACCC_Sentence-Splitter
收藏Hugging Face2022-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Biomedical-TeMU/SPACCC_Sentence-Splitter
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个用于分割西班牙语临床病例文本的句子分割模型。模型使用了SPACCC_SPLIT语料库进行训练和测试,训练集包含900个临床病例,测试集包含100个临床病例。模型在测试集上达到了98.75%的F-Measure。数据集包含了模型、训练集、测试集、黄金标准、可执行文件和源代码。模型的创建使用了Apache OpenNLP工具包,并详细描述了训练参数和模型评估结果。
提供机构:
Biomedical-TeMU
原始信息汇总
数据集概述
数据集名称
The Sentence Splitter (SS) for Clinical Cases Written in Spanish
数据集描述
本数据集包含一个使用SPACCC_SPLIT语料库(https://github.com/PlanTL-SANIDAD/SPACCC_SPLIT)训练的句子分割模型。该模型使用90%的语料库(900个临床案例)进行训练,并使用剩余10%(100个临床案例)进行测试。该模型特别适用于分割西班牙语的生物医学文档,尤其是临床案例,其F-Measure达到98.75%。
数据集内容
- 模型:句子分割模型,文件名为 "es-sentence-splitter-model-spaccc.bin"。
- 训练集:用于构建模型的临床案例,包含在 "train_set" 和 "train_set_docs" 目录中。
- 测试集:用于评估模型性能的临床案例,位于 "test_set" 目录。
- 黄金标准:用于评估模型性能的临床案例,位于 "gold_standard" 目录。
- 源代码:创建和评估模型的代码,包括 "CreateModelSS.java" 和 "EvaluateModelSS.java",以及使用示例 "SentenceSplitter.java" 和 "abbreviations.dat" 文件。
- 可执行文件:用于应用句子分割器的程序 "SentenceSplitter.jar"。
模型评估
- 评估统计:
- 黄金标准中的句子数:1445
- 生成的句子数:1447
- 正确分割的句子数:1428
- 错误分割的句子数:12
- 遗漏的句子数:5
- 精确度:98.69%
- 召回率:98.82%
- F-Measure:98.75%
使用方法
- 使用命令:
java -jar SentenceSplitter.jar INPUT_FILE MODEL_FILE - 示例:
java -jar SentenceSplitter.jar file_with_sentences_not_splitted.txt es-sentence-splitter-model-spaccc.bin
许可证
本数据集遵循Creative Commons Attribution 4.0 International License。



