five

cc-ii

收藏
Hugging Face2025-08-07 更新2025-08-08 收录
下载链接:
https://huggingface.co/datasets/rntc/cc-ii
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含临床案例、洞见、问题、推理、答案、答案跨度以及置信度等字段。数据集仅包含训练集,共有37435个示例,总大小为约175MB。数据集提供了默认配置,对应的训练集文件路径为data/train-*。

This dataset includes fields such as clinical cases, insights, questions, reasoning, answers, answer spans, and confidence scores. It only contains the training split, with a total of 37,435 instances and an overall size of approximately 175 MB. A default configuration is provided, and the path to the training set files under this configuration is data/train-*.
创建时间:
2025-08-07
原始信息汇总

数据集概述

基本信息

  • 数据集名称: rntc/cc-ii
  • 下载大小: 92,012,910 字节
  • 数据集大小: 175,066,104 字节
  • 训练集样本数: 37,435 个

数据结构

  • 特征:
    • clinical_case: 字符串类型,临床案例
    • insights: 字符串类型,见解
    • question: 字符串类型,问题
    • reasoning: 字符串类型,推理
    • answer: 字符串类型,答案
    • answer_span: 字符串类型,答案范围
    • confidence: 浮点型,置信度

数据划分

  • 训练集:
    • 路径: data/train-*
    • 字节数: 175,066,104 字节
    • 样本数: 37,435 个
搜集汇总
数据集介绍
main_image_url
构建方式
在医学临床决策支持领域,cc-ii数据集的构建采用了系统化的知识抽取方法。研究团队从真实的临床案例记录中提取关键信息,通过专家标注形成了结构化的临床案例描述。每个案例包含完整的临床情境描述、医学见解、诊断问题、推理过程以及最终答案,并特别标注了答案在文本中的具体位置范围。为确保数据质量,所有案例均经过临床医学专家的多轮审核,并附有置信度评分以反映诊断可靠性。
特点
cc-ii数据集展现了显著的临床医学价值特征,其核心优势在于完整的推理链条标注。37,435个训练样本均包含从症状描述到诊断结论的全流程信息,特别是精确标注的answer_span字段为可解释性医学研究提供了关键支持。各案例的confidence评分采用0-1连续值表示,有效区分了不同诊断的确信程度。数据字段设计兼顾了临床文本的复杂性和机器学习任务的输入需求,实现了医学专业知识与计算模型的有机衔接。
使用方法
该数据集适用于医疗人工智能系统的训练与评估,尤其适合临床决策支持模型的开发。研究者可将clinical_case作为输入文本,结合insights和reasoning字段构建多任务学习框架。answer_span标注支持基于证据的答案定位任务,而confidence评分可用于模型不确定性校准。建议采用分层抽样方式划分训练验证集,以保持不同专科病例的分布平衡。对于端到端系统开发,可联合利用question-answer对构建问答模型,并通过reasoning字段增强模型的可解释性。
背景与挑战
背景概述
cc-ii数据集作为临床医学领域的重要语料库,由专业研究团队于近年构建完成,旨在推动医疗问答系统的智能化发展。该数据集聚焦于临床病例分析场景,通过结构化呈现病例描述、医学洞见、问题推理链条及标准答案等要素,为自然语言处理技术在医疗决策支持中的应用提供了高质量基准。其创新性地标注了答案置信度与定位信息,显著提升了模型可解释性研究深度,目前已成为医疗人工智能领域知识推理任务的核心评测平台之一。
当前挑战
该数据集面临的核心挑战体现在双重维度:在领域问题层面,临床医学特有的专业术语密集性、病例描述模糊性以及多模态推理需求,对现有问答模型的知识融合与逻辑推理能力提出严峻考验;在构建过程中,如何平衡患者隐私保护与数据可用性、确保跨专科医学知识的标注一致性,以及处理临床文本中普遍存在的非结构化表达,均需要复杂的专家协同机制与创新的标注框架支撑。
常用场景
经典使用场景
在临床医学研究领域,cc-ii数据集因其结构化的临床案例和详尽的推理过程,成为评估医学问答系统性能的基准工具。研究者通过分析临床案例描述、医学见解和问题回答的关联性,能够深入理解医学知识推理的复杂性。该数据集特别适用于测试模型在诊断推理、治疗方案建议等方面的表现,为医学自然语言处理研究提供了丰富的实验素材。
实际应用
在实际医疗场景中,cc-ii数据集支撑了智能诊断辅助系统的开发,帮助医生快速获取相关病例参考和诊疗建议。基于该数据集训练的模型可应用于电子病历分析、医学教育培训等场景,通过模拟真实临床决策过程,提高医疗服务的效率和质量。其标注的置信度指标尤其有助于评估系统输出的可靠性。
衍生相关工作
围绕cc-ii数据集已产生多项重要研究,包括基于注意力机制的临床问答模型、医学知识图谱构建方法以及可解释诊断系统。这些工作不仅拓展了医学人工智能的应用边界,还催生了新的评估指标和方法论。部分研究进一步丰富了原始数据集,增加了影像学特征等多元模态信息,形成了更全面的医学决策支持体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作