cc-ii

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/rntc/cc-ii

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含临床案例、洞见、问题、推理、答案、答案跨度以及置信度等字段。数据集仅包含训练集，共有37435个示例，总大小为约175MB。数据集提供了默认配置，对应的训练集文件路径为data/train-*。

This dataset includes fields such as clinical cases, insights, questions, reasoning, answers, answer spans, and confidence scores. It only contains the training split, with a total of 37,435 instances and an overall size of approximately 175 MB. A default configuration is provided, and the path to the training set files under this configuration is data/train-*.

创建时间：

2025-08-07

原始信息汇总

数据集概述

基本信息

数据集名称: rntc/cc-ii
下载大小: 92,012,910 字节
数据集大小: 175,066,104 字节
训练集样本数: 37,435 个

数据结构

特征:
- clinical_case: 字符串类型，临床案例
- insights: 字符串类型，见解
- question: 字符串类型，问题
- reasoning: 字符串类型，推理
- answer: 字符串类型，答案
- answer_span: 字符串类型，答案范围
- confidence: 浮点型，置信度

数据划分

训练集:
- 路径: data/train-*
- 字节数: 175,066,104 字节
- 样本数: 37,435 个

搜集汇总

数据集介绍

构建方式

在医学临床决策支持领域，cc-ii数据集的构建采用了系统化的知识抽取方法。研究团队从真实的临床案例记录中提取关键信息，通过专家标注形成了结构化的临床案例描述。每个案例包含完整的临床情境描述、医学见解、诊断问题、推理过程以及最终答案，并特别标注了答案在文本中的具体位置范围。为确保数据质量，所有案例均经过临床医学专家的多轮审核，并附有置信度评分以反映诊断可靠性。

特点

cc-ii数据集展现了显著的临床医学价值特征，其核心优势在于完整的推理链条标注。37,435个训练样本均包含从症状描述到诊断结论的全流程信息，特别是精确标注的answer_span字段为可解释性医学研究提供了关键支持。各案例的confidence评分采用0-1连续值表示，有效区分了不同诊断的确信程度。数据字段设计兼顾了临床文本的复杂性和机器学习任务的输入需求，实现了医学专业知识与计算模型的有机衔接。

使用方法

该数据集适用于医疗人工智能系统的训练与评估，尤其适合临床决策支持模型的开发。研究者可将clinical_case作为输入文本，结合insights和reasoning字段构建多任务学习框架。answer_span标注支持基于证据的答案定位任务，而confidence评分可用于模型不确定性校准。建议采用分层抽样方式划分训练验证集，以保持不同专科病例的分布平衡。对于端到端系统开发，可联合利用question-answer对构建问答模型，并通过reasoning字段增强模型的可解释性。

背景与挑战

背景概述

cc-ii数据集作为临床医学领域的重要语料库，由专业研究团队于近年构建完成，旨在推动医疗问答系统的智能化发展。该数据集聚焦于临床病例分析场景，通过结构化呈现病例描述、医学洞见、问题推理链条及标准答案等要素，为自然语言处理技术在医疗决策支持中的应用提供了高质量基准。其创新性地标注了答案置信度与定位信息，显著提升了模型可解释性研究深度，目前已成为医疗人工智能领域知识推理任务的核心评测平台之一。

当前挑战

该数据集面临的核心挑战体现在双重维度：在领域问题层面，临床医学特有的专业术语密集性、病例描述模糊性以及多模态推理需求，对现有问答模型的知识融合与逻辑推理能力提出严峻考验；在构建过程中，如何平衡患者隐私保护与数据可用性、确保跨专科医学知识的标注一致性，以及处理临床文本中普遍存在的非结构化表达，均需要复杂的专家协同机制与创新的标注框架支撑。

常用场景

经典使用场景

在临床医学研究领域，cc-ii数据集因其结构化的临床案例和详尽的推理过程，成为评估医学问答系统性能的基准工具。研究者通过分析临床案例描述、医学见解和问题回答的关联性，能够深入理解医学知识推理的复杂性。该数据集特别适用于测试模型在诊断推理、治疗方案建议等方面的表现，为医学自然语言处理研究提供了丰富的实验素材。

实际应用

在实际医疗场景中，cc-ii数据集支撑了智能诊断辅助系统的开发，帮助医生快速获取相关病例参考和诊疗建议。基于该数据集训练的模型可应用于电子病历分析、医学教育培训等场景，通过模拟真实临床决策过程，提高医疗服务的效率和质量。其标注的置信度指标尤其有助于评估系统输出的可靠性。

衍生相关工作

围绕cc-ii数据集已产生多项重要研究，包括基于注意力机制的临床问答模型、医学知识图谱构建方法以及可解释诊断系统。这些工作不仅拓展了医学人工智能的应用边界，还催生了新的评估指标和方法论。部分研究进一步丰富了原始数据集，增加了影像学特征等多元模态信息，形成了更全面的医学决策支持体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集