five

results

收藏
Hugging Face2025-07-18 更新2025-07-19 收录
下载链接:
https://huggingface.co/datasets/rntc/results
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了法国医学自然语言处理排行榜的评价结果,用于emea_ner和medline_ner两个任务。emea_ner任务是对EMEA文本进行法国医学命名实体识别,而medline_ner任务是对MEDLINE摘要进行法国医学命名实体识别。数据集的评估指标包括f1分数、精确度和召回率,均采用seqeval工具和IOB2方案进行计算。

该数据集包含了法国医学自然语言处理排行榜的评价结果,用于emea_ner和medline_ner两个任务。emea_ner任务是对EMEA文本进行法国医学命名实体识别,而medline_ner任务是对MEDLINE摘要进行法国医学命名实体识别。数据集的评估指标包括f1分数、精确度和召回率,均采用seqeval工具和IOB2方案进行计算。
创建时间:
2025-07-17
原始信息汇总

French Medical NLP Leaderboard - 结果数据集概述

数据集简介

  • 该数据集包含法国医学NLP排行榜的评估结果。

结果格式

  • 每个结果文件应为JSON格式,包含以下结构: json { "config": { "model_dtype": "float16", "model_name": "model_name", "model_sha": "revision" }, "results": { "emea_ner": { "f1": 0.85, "precision": 0.83, "recall": 0.87 }, "medline_ner": { "f1": 0.82, "precision": 0.80, "recall": 0.84 } } }

任务列表

  • emea_ner: 针对EMEA文本的法语医学命名实体识别
  • medline_ner: 针对MEDLINE摘要的法语医学命名实体识别

评估指标

  • 所有指标均使用seqeval框架的IOB2方案:
    • f1: 微平均F1分数
    • precision: 微平均精确率
    • recall: 微平均召回率
搜集汇总
数据集介绍
main_image_url
构建方式
在法语医学自然语言处理领域,results数据集的构建采用了标准化的评估框架。该数据集通过收集不同模型在特定医学文本上的性能指标,以JSON格式系统化地存储了模型配置和评估结果。每个结果文件均包含模型名称、精度类型等元数据,以及在EMEA文本和MEDLINE摘要上的命名实体识别任务表现,采用seqeval工具包的IOB2标注方案计算微观F1值、精确率和召回率。这种结构化的数据组织方式确保了评估结果的可比性和可追溯性。
特点
results数据集展现了法语医学NLP领域的前沿评估标准,其核心价值在于提供了多维度性能指标的比较基准。数据集涵盖两个关键任务:针对EMEA法规文本的医学实体识别和基于MEDLINE摘要的实体识别,均采用业界公认的IOB2标注体系。每个任务的评估结果均包含相互验证的微观F1值、精确率和召回率,形成完整的性能评估三角。这种设计使得研究者能够从不同角度全面分析模型在专业医学法语文本上的表现。
使用方法
对于需要评估法语医学NLP模型性能的研究者,results数据集提供了便捷的基准测试方案。使用者只需按照规定的JSON格式提交模型在测试集上的预测结果,即可自动生成包含三大核心指标的评估报告。数据集支持横向比较不同模型架构在相同任务上的表现差异,同时允许通过模型精度类型、版本哈希等元数据进行细粒度分析。这种标准化的使用流程显著降低了医学NLP领域的评估门槛,为算法改进提供了明确的方向指引。
背景与挑战
背景概述
French Medical NLP Leaderboard - Results Dataset作为法语医学自然语言处理领域的基准评估数据集,由专业研究团队于近年构建,旨在推动法语医学文本的命名实体识别(NER)技术发展。该数据集聚焦于EMEA文档和MEDLINE摘要两大权威医学文本来源,采用标准化评估框架,为研究者提供模型性能的客观比较平台。其采用的IOB2标注方案和微观F1值等指标,体现了医学信息抽取领域对精确性和召回率的双重追求,已成为评估法语医学NLP模型性能的重要参考标准。
当前挑战
该数据集面临的核心挑战主要体现在两方面:在领域问题层面,医学文本特有的专业术语密集性、实体边界模糊性以及法语语法复杂性,使得传统NER模型难以达到临床应用的精度要求;在构建过程层面,如何平衡EMEA法规文档的领域特异性和MEDLINE摘要的学术通用性,确保评估结果的代表性和可比性,成为数据集设计的关键难点。同时,维护评估指标的一致性,避免不同模型版本比对产生的偏差,也是持续面临的挑战。
常用场景
经典使用场景
在法语医学自然语言处理领域,该数据集作为评估基准被广泛用于比较不同模型在命名实体识别任务上的性能表现。研究人员通过提交模型在EMEA药品文档和MEDLINE摘要上的NER预测结果,能够客观衡量模型对医学术语、药物名称等专业实体的识别能力。
实际应用
在医疗信息化建设中,该数据集支撑的评估体系可直接应用于电子病历系统、医学文献智能检索等场景。基于leaderboard筛选的高性能模型能准确提取法语医疗文本中的关键实体,辅助临床决策支持系统构建,提升医疗文档结构化处理的自动化水平。
衍生相关工作
围绕该评估框架已衍生出CamemBERT-bio、FlauBERT-médical等针对法语医疗文本的预训练模型优化工作。相关研究进一步扩展了评估维度,提出了结合领域知识的增强评估方案,形成了医疗NLP领域方法创新与基准测试相互促进的良性循环。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作