UroLlmEvalSet
收藏arXiv2025-01-21 更新2025-01-23 收录
下载链接:
https://huggingface.co/datasets/stefan-m-lenz/UroLlmEvalSet
下载链接
链接失效反馈官方服务:
资源简介:
UroLlmEvalSet数据集由约翰内斯古腾堡大学美因茨大学医学中心的研究团队创建,旨在评估开源大语言模型在德国泌尿科医生笔记中的肿瘤文档处理能力。该数据集包含149条经过注释的文本片段,涵盖了151个肿瘤诊断,其中84个标注了首次诊断日期。数据来源于匿名化的泌尿科医生笔记,经过严格的隐私保护处理,确保患者信息的匿名性。数据集的应用领域主要集中在医疗文档自动化处理,特别是肿瘤诊断的自动编码和信息提取,旨在提高肿瘤文档处理的效率和准确性,减少医疗文档人员的工作负担。
提供机构:
约翰内斯古腾堡大学美因茨大学医学中心医学生物统计学、流行病学和信息学研究所
创建时间:
2025-01-21
搜集汇总
数据集介绍

构建方式
UroLlmEvalSet数据集的构建基于153份来自德国泌尿科医生的匿名病历PDF文件。这些文件经过严格的数据保护处理,确保患者隐私得到充分保护。首先,通过PDF提取工具将文本从PDF文件中提取出来,并根据文本块的位置信息进行聚类和标注。随后,筛选出包含诊断信息的文本块,并由一名标注者手动添加ICD-10代码和首次诊断日期。最终,数据集被转换为XML格式,并进一步通过Python的Datasets包转换为HuggingFace的标准数据集格式。
特点
UroLlmEvalSet数据集包含149个标注的文本片段,涵盖了151个肿瘤诊断,其中84个诊断具有首次诊断日期的标注。数据集主要聚焦于泌尿科肿瘤诊断,尤其是前列腺癌和膀胱癌。数据集的特点在于其真实性和复杂性,文本中包含了大量的缩写、异构表达和拼写错误,反映了实际临床文档的挑战。此外,数据集中的日期信息经过随机偏移处理,以确保患者隐私的同时保持时间跨度的真实性。
使用方法
UroLlmEvalSet数据集主要用于评估开源大语言模型(LLMs)在肿瘤文档自动化任务中的表现,特别是识别肿瘤诊断、分配ICD-10代码和提取首次诊断日期。数据集的使用方法包括设计不同的提示策略(如零样本提示和少样本提示),以探索模型在不同任务中的表现。通过该数据集,研究人员可以评估模型在真实临床数据上的性能,并为未来的模型优化提供基准。
背景与挑战
背景概述
UroLlmEvalSet数据集由德国美因茨大学医学中心的Stefan Lenz等人于2024年创建,旨在评估开源大语言模型(LLMs)在德国泌尿科医生笔记中的肿瘤文档自动化应用。该数据集基于153份匿名化的泌尿科医生笔记,涵盖了前列腺癌、膀胱癌等常见肿瘤的诊断信息。研究核心问题在于探索LLMs在肿瘤文档中的信息提取能力,特别是其在识别肿瘤诊断、分配ICD-10编码以及提取首次诊断日期等任务中的表现。该数据集为德国医疗领域的自然语言处理(NLP)研究提供了宝贵的资源,填补了德语医疗文本基准数据的空白。
当前挑战
UroLlmEvalSet数据集面临的挑战主要包括两个方面。首先,肿瘤文档任务本身具有复杂性,要求模型能够准确区分患者的明确诊断、疑似诊断或排除诊断,并正确提取与肿瘤相关的治疗和结果信息。其次,数据集的构建过程中也面临诸多挑战,包括数据隐私保护问题、医生笔记中的非标准化语言表达、拼写错误以及ICD-10编码的缺失等。此外,由于德国数据保护法规的限制,只能使用本地部署的开源LLMs,这进一步限制了模型的选择和性能优化。
常用场景
经典使用场景
UroLlmEvalSet数据集主要用于评估开源大语言模型(LLMs)在德国泌尿科医生笔记中的肿瘤文档自动化能力。该数据集通过提供基于匿名医生笔记的标注文本片段,支持模型在肿瘤诊断、ICD-10编码和首次诊断日期提取等任务中的表现评估。这些任务代表了肿瘤文档处理中的核心步骤,能够有效衡量模型在医学领域的语言理解和信息提取能力。
实际应用
UroLlmEvalSet的实际应用场景主要集中在医疗文档自动化领域。通过使用该数据集评估的模型,医院和医疗机构可以显著提高肿瘤文档的效率和准确性,减少人工编码的工作量。特别是在德国,由于数据保护法规的限制,本地部署的开源LLMs成为唯一可行的解决方案。该数据集为这些模型的实际应用提供了可靠的基准测试,帮助医疗机构选择最适合的模型进行文档自动化处理。
衍生相关工作
UroLlmEvalSet的发布推动了多个相关研究领域的发展。首先,它启发了更多针对德语医学文本的开源LLMs研究,尤其是在肿瘤文档和ICD-10编码任务中的应用。其次,该数据集为其他医学领域的文档自动化研究提供了参考,例如心脏病学或放射学。此外,基于该数据集的研究还促进了模型优化技术的发展,如参数高效微调和检索增强生成(RAG),这些技术进一步提升了模型在医学文档处理中的表现。
以上内容由遇见数据集搜集并总结生成



