five

Biomedical-TeMU/SPACCC_Sentence-Splitter

收藏
Hugging Face2022-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Biomedical-TeMU/SPACCC_Sentence-Splitter
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个用于分割西班牙语临床病例文本的句子分割模型。模型使用了SPACCC_SPLIT语料库进行训练和测试,训练集包含900个临床病例,测试集包含100个临床病例。模型在测试集上达到了98.75%的F-Measure。数据集包含了模型、训练集、测试集、黄金标准、可执行文件和源代码。模型的创建使用了Apache OpenNLP工具包,并详细描述了训练参数和模型评估结果。
提供机构:
Biomedical-TeMU
原始信息汇总

数据集概述

数据集名称

The Sentence Splitter (SS) for Clinical Cases Written in Spanish

数据集描述

本数据集包含一个使用SPACCC_SPLIT语料库(https://github.com/PlanTL-SANIDAD/SPACCC_SPLIT)训练的句子分割模型。该模型使用90%的语料库(900个临床案例)进行训练,并使用剩余10%(100个临床案例)进行测试。该模型特别适用于分割西班牙语的生物医学文档,尤其是临床案例,其F-Measure达到98.75%。

数据集内容

  • 模型:句子分割模型,文件名为 "es-sentence-splitter-model-spaccc.bin"。
  • 训练集:用于构建模型的临床案例,包含在 "train_set" 和 "train_set_docs" 目录中。
  • 测试集:用于评估模型性能的临床案例,位于 "test_set" 目录。
  • 黄金标准:用于评估模型性能的临床案例,位于 "gold_standard" 目录。
  • 源代码:创建和评估模型的代码,包括 "CreateModelSS.java" 和 "EvaluateModelSS.java",以及使用示例 "SentenceSplitter.java" 和 "abbreviations.dat" 文件。
  • 可执行文件:用于应用句子分割器的程序 "SentenceSplitter.jar"。

模型评估

  • 评估统计
    • 黄金标准中的句子数:1445
    • 生成的句子数:1447
    • 正确分割的句子数:1428
    • 错误分割的句子数:12
    • 遗漏的句子数:5
    • 精确度:98.69%
    • 召回率:98.82%
    • F-Measure:98.75%

使用方法

  • 使用命令:java -jar SentenceSplitter.jar INPUT_FILE MODEL_FILE
  • 示例:java -jar SentenceSplitter.jar file_with_sentences_not_splitted.txt es-sentence-splitter-model-spaccc.bin

许可证

本数据集遵循Creative Commons Attribution 4.0 International License。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作