bigbio/cas

Name: bigbio/cas
Creator: bigbio
Published: 2022-12-22 15:44:18
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/cas

下载链接

链接失效反馈

官方服务：

资源简介：

我们手动注释了来自生物医学领域的两个语料库。ESSAI语料库包含法语的临床试验协议，主要从国家癌症研究所获得。典型的协议包括两部分：试验摘要，指示试验的目的和应用的方法；以及试验的详细描述，包括纳入和排除标准。CAS语料库包含发表在科学文献和培训材料中的临床案例。这些案例发表在法语国家（法国、比利时、瑞士、加拿大、非洲国家、热带国家）的不同期刊上，涉及各种医学专业（心脏病学、泌尿学、肿瘤学、妇产科学、肺病学、胃肠病学）。临床案例的目的是描述患者的临床情况。因此，它们的内容接近临床叙述的内容（诊断、治疗或程序、演变、家族史、预期受众等的描述）。在临床案例中，否定经常用于描述患者的体征、症状和诊断。推测也存在，但较少见。此版本仅包含注释的CAS语料库。

We manually annotated two corpora from the biomedical domain. The ESSAI corpus contains French-language clinical trial protocols, primarily obtained from the French National Cancer Institute. A typical protocol comprises two sections: a trial summary outlining the trial's objectives and applied methodologies, and a detailed trial description including inclusion and exclusion criteria. The CAS corpus consists of clinical case reports published in scientific literature and training materials. These reports have been published in various journals across French-speaking regions and countries, including France, Belgium, Switzerland, Canada, African countries, and tropical countries, covering a wide range of medical specialties: cardiology, urology, oncology, gynecology and obstetrics, pulmonology, and gastroenterology. The core purpose of these clinical case reports is to depict the clinical scenarios of patients. Accordingly, their content closely aligns with that of clinical narratives, encompassing descriptions of diagnosis, treatments or procedures, disease progression, family history, intended audience, and other relevant details. Negation is frequently employed in clinical case reports to characterize patients' signs, symptoms, and diagnoses. Hedging constructions also appear, though they are relatively rare. This released version exclusively contains the annotated CAS corpus.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

语言: 法语
许可证: 其他（DUA）
多语言性: 单语
数据集名称: CAS
主页: clementdalloux.fr

数据集描述

任务: 文本分类
内容: 包含临床案例，这些案例发表于科学文献和培训材料中，涉及多种医学专业（如心脏病学、泌尿学、肿瘤学等）。
特点: 描述患者的临床情况，内容接近临床叙述，频繁使用否定描述患者症状和诊断，推测较少。

数据集版本

当前版本: 仅包含已标注的CAS corpus。

引用信息

@inproceedings{grabar-etal-2018-cas, title = {{CAS}: {F}rench Corpus with Clinical Cases}, author = {Grabar, Natalia and Claveau, Vincent and Dalloux, Cl{e}ment}, year = 2018, month = oct, booktitle = {Proceedings of the Ninth International Workshop on Health Text Mining and Information Analysis}, publisher = {Association for Computational Linguistics}, address = {Brussels, Belgium}, pages = {122--128}, doi = {10.18653/v1/W18-5614}, url = {https://aclanthology.org/W18-5614} }

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，构建高质量标注语料库是推动研究进展的关键。CAS数据集的构建过程体现了严谨的学术方法，研究者从法语科学文献及培训材料中系统收集临床病例，这些材料源自法国、比利时、瑞士、加拿大及非洲等多个法语国家，涵盖心脏病学、泌尿学、肿瘤学等多个医学专科。通过人工标注的方式，对文本中的否定与推测等语言学现象进行细致标注，最终形成了包含超过39.7万词规模的语料库，为法语医学文本分析提供了珍贵资源。

特点

CAS数据集的核心特点在于其专注于法语临床病例文本，这类文本内容贴近真实的临床叙事，包含诊断、治疗、病程演变及家族史等丰富临床细节。语料中频繁出现的否定表达用于描述患者的体征、症状与诊断，同时包含一定程度的推测性语言，这精准反映了临床医学文本的语言特性。数据集的标注聚焦于这些关键语言学特征，使其特别适用于开发与评估针对医学文本中否定与推测信息识别的自然语言处理模型。

使用方法

该数据集主要服务于文本分类任务，为法语医学文本挖掘研究提供基础数据支持。研究人员可利用该标注语料训练机器学习模型，以自动识别临床病例中的否定与推测语境。在使用前，用户需遵循数据使用协议（DUA），确保符合数据获取与使用的规范要求。通过加载该数据集，研究者可将其分割为训练集、验证集与测试集，进而开展模型构建、性能评估等研究工作，推动法语临床文本信息抽取技术的发展。

背景与挑战

背景概述

在生物医学自然语言处理领域，法语临床文本资源的稀缺性长期制约着相关研究的发展。CAS语料库由Natalia Grabar、Vincent Claveau和Clément Dalloux等研究人员于2018年构建，旨在填补法语临床病例文本资源的空白。该语料库收录了来自法语国家多种医学期刊的临床病例报告，涵盖心脏病学、泌尿学、肿瘤学等多个专科领域，核心研究聚焦于临床文本中的否定与推测现象识别。作为早期法语临床文本标注资源，CAS为后续临床信息抽取、文本分类等任务提供了重要的数据基础，推动了法语医学自然语言处理工具的开发与评估。

当前挑战

CAS语料库致力于解决临床文本中否定与推测表达识别这一核心挑战，该问题直接影响临床决策支持系统的准确性。构建过程中面临多重困难：临床病例文本涉及复杂的医学表述与多样的语言风格，标注工作需要医学语言学双重专业知识；法语医学文本的语法结构与术语体系具有特殊性，增加了标注一致性维护的难度；同时，伦理限制导致原始临床数据获取受限，需依赖已发表的科学文献进行二次构建，这在一定程度上影响了数据的时效性与规模扩展。

常用场景

经典使用场景

在医学自然语言处理领域，CAS数据集以其法语临床病例文本的丰富标注，为文本分类任务提供了关键资源。该数据集常用于训练和评估模型，以识别临床叙述中的否定与推测表达，这些表达在描述患者症状、诊断及治疗过程中频繁出现，对准确理解医学文本至关重要。通过构建分类器，研究者能够系统分析临床病例的语言特征，进而提升医学信息抽取的精度与可靠性。

解决学术问题

CAS数据集有效应对了医学文本中因隐私与伦理限制导致的数据稀缺问题，为法语临床语言研究填补了空白。它支持学术探索否定与推测现象的自动检测，这些语言结构在临床决策中影响深远，直接关联诊断准确性与治疗安全性。该资源的引入促进了医学自然语言处理方法的可复现性，推动了跨语言医学文本分析技术的发展，为后续研究奠定了实证基础。

衍生相关工作

围绕CAS数据集，已衍生出多项经典研究工作，主要集中在法语医学文本的语义标注与信息抽取领域。例如，相关研究利用该数据集开发了针对否定与推测检测的深度学习模型，这些模型进一步应用于临床叙事分析，以识别患者病史中的不确定性表达。此外，基于CAS的标注框架也被扩展至其他医学语料库，促进了跨语种临床语言资源的构建与标准化，推动了医学自然语言处理社区的协作创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集