Biomedical-TeMU/SPACCC_Sentence-Splitter

Name: Biomedical-TeMU/SPACCC_Sentence-Splitter
Creator: Biomedical-TeMU
Published: 2022-03-11 02:09:00
License: 暂无描述

Hugging Face2022-03-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Biomedical-TeMU/SPACCC_Sentence-Splitter

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个用于分割西班牙语临床病例文本的句子分割模型。模型使用了SPACCC_SPLIT语料库进行训练和测试，训练集包含900个临床病例，测试集包含100个临床病例。模型在测试集上达到了98.75%的F-Measure。数据集包含了模型、训练集、测试集、黄金标准、可执行文件和源代码。模型的创建使用了Apache OpenNLP工具包，并详细描述了训练参数和模型评估结果。

提供机构：

Biomedical-TeMU

原始信息汇总

数据集概述

数据集名称

The Sentence Splitter (SS) for Clinical Cases Written in Spanish

数据集描述

本数据集包含一个使用SPACCC_SPLIT语料库（https://github.com/PlanTL-SANIDAD/SPACCC_SPLIT）训练的句子分割模型。该模型使用90%的语料库（900个临床案例）进行训练，并使用剩余10%（100个临床案例）进行测试。该模型特别适用于分割西班牙语的生物医学文档，尤其是临床案例，其F-Measure达到98.75%。

数据集内容

模型：句子分割模型，文件名为 "es-sentence-splitter-model-spaccc.bin"。
训练集：用于构建模型的临床案例，包含在 "train_set" 和 "train_set_docs" 目录中。
测试集：用于评估模型性能的临床案例，位于 "test_set" 目录。
黄金标准：用于评估模型性能的临床案例，位于 "gold_standard" 目录。
源代码：创建和评估模型的代码，包括 "CreateModelSS.java" 和 "EvaluateModelSS.java"，以及使用示例 "SentenceSplitter.java" 和 "abbreviations.dat" 文件。
可执行文件：用于应用句子分割器的程序 "SentenceSplitter.jar"。

模型评估

评估统计：
- 黄金标准中的句子数：1445
- 生成的句子数：1447
- 正确分割的句子数：1428
- 错误分割的句子数：12
- 遗漏的句子数：5
- 精确度：98.69%
- 召回率：98.82%
- F-Measure：98.75%

使用方法

使用命令：java -jar SentenceSplitter.jar INPUT_FILE MODEL_FILE
示例：java -jar SentenceSplitter.jar file_with_sentences_not_splitted.txt es-sentence-splitter-model-spaccc.bin

许可证

本数据集遵循Creative Commons Attribution 4.0 International License。

5,000+

优质数据集

54 个

任务类型

进入经典数据集