five

The National Cancer Institute (NCI) Surveillance, Epidemiology, and End Results (SEER) Program|癌症研究数据集|公共卫生数据集

收藏
seer.cancer.gov2024-10-25 收录
癌症研究
公共卫生
下载链接:
https://seer.cancer.gov/
下载链接
链接失效反馈
资源简介:
SEER数据集包含美国多个地区的癌症发病率和生存率数据,涵盖了多种癌症类型和人口统计信息。数据集定期更新,提供详细的癌症统计数据,包括病例数量、年龄、性别、种族、诊断年份、原发部位、病理类型、治疗方式和生存状态等。
提供机构:
seer.cancer.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
The National Cancer Institute (NCI) Surveillance, Epidemiology, and End Results (SEER) Program数据集的构建基于对美国多个地区的癌症病例进行长期监测。该数据集整合了来自不同州和地区的癌症登记数据,通过标准化和统一的数据收集方法,确保了数据的准确性和一致性。数据收集过程涵盖了癌症患者的诊断信息、治疗方案、生存状态等多个维度,旨在提供全面的癌症流行病学数据。
特点
SEER数据集以其广泛的地理覆盖和长期的监测周期著称,涵盖了美国近三分之一的人口。该数据集不仅提供了详细的癌症病例信息,还包括了患者的种族、性别、年龄等社会人口学特征,为研究癌症的流行趋势和影响因素提供了丰富的数据支持。此外,SEER数据集还定期更新,确保了数据的时效性和研究的前沿性。
使用方法
SEER数据集主要用于癌症流行病学研究、公共卫生政策制定以及临床研究。研究人员可以通过访问SEER数据库,获取特定地区、特定时间段内的癌症发病率和死亡率数据,进行深入分析。此外,该数据集还可用于评估不同治疗方案的效果,以及预测癌症患者的生存率。使用者需遵守NCI的数据使用协议,确保数据的合法和道德使用。
背景与挑战
背景概述
国家癌症研究所(NCI)的监测、流行病学和最终结果(SEER)计划自1973年启动以来,已成为全球癌症研究的重要数据源。该计划由美国国家癌症研究所主导,旨在通过收集和分析癌症发病率、死亡率和生存率的数据,为癌症预防、诊断和治疗提供科学依据。SEER数据集涵盖了美国多个地区的癌症病例,包括详细的临床和人口统计信息,为研究人员提供了宝贵的资源。其数据不仅用于学术研究,还为公共卫生政策制定提供了重要参考,极大地推动了癌症研究和防治工作的发展。
当前挑战
尽管SEER数据集在癌症研究中具有重要地位,但其构建和维护过程中仍面临诸多挑战。首先,数据的质量和完整性依赖于各地区的报告准确性,这可能导致数据偏差。其次,随着癌症病例的多样性和复杂性增加,数据集需要不断更新和扩展,以涵盖更多类型的癌症和更详细的临床信息。此外,数据隐私和安全问题也是一大挑战,如何在确保数据安全的前提下,提供开放访问权限,是SEER计划需要持续关注的问题。最后,数据分析的复杂性要求研究人员具备高水平的统计和计算能力,以充分利用SEER数据集的潜力。
发展历史
创建时间与更新
The National Cancer Institute (NCI) Surveillance, Epidemiology, and End Results (SEER) Program数据集创建于1973年,自那时起,该数据集持续更新,以反映美国癌症发病率和生存率的最新趋势。
重要里程碑
SEER数据集的重要里程碑包括1980年代初期的扩展,涵盖了更多的地理区域和人口群体,从而提高了数据集的代表性和广泛性。1992年,SEER开始收集有关癌症患者生存率的详细数据,这一举措极大地推动了癌症研究和公共卫生政策的制定。2000年后,SEER引入了更为精细的数据分类和更频繁的更新机制,确保数据集能够及时反映癌症流行病学的变化。
当前发展情况
当前,SEER数据集已成为全球癌症研究和公共卫生领域的重要资源。它不仅为研究人员提供了丰富的癌症发病和生存数据,还为政策制定者提供了科学依据,以制定和调整癌症预防和治疗策略。SEER的持续更新和扩展,使其在癌症流行病学、遗传学和治疗效果评估等多个领域发挥了关键作用,推动了癌症研究和公共卫生实践的进步。
发展历程
  • 美国国家癌症研究所(NCI)启动了SEER项目,旨在通过收集和分析癌症发病率和生存率数据,提供全面的癌症监测和流行病学研究。
    1973年
  • SEER项目首次发布了其数据,涵盖了美国多个地区的癌症病例,为癌症研究和公共卫生政策制定提供了重要依据。
    1975年
  • SEER项目扩展了其覆盖范围,增加了更多的地理区域,以提高数据的代表性和全面性。
    1980年
  • SEER项目开始采用国际疾病分类(ICD)编码系统,以标准化癌症病例的分类和统计方法。
    1992年
  • SEER项目引入了更详细的数据收集标准,包括分子生物学和遗传学信息,以支持更深入的癌症研究。
    2000年
  • SEER项目发布了SEER*Stat软件,用于数据分析和可视化,极大地促进了研究人员对癌症数据的利用和理解。
    2007年
  • SEER项目开始与美国国家卫生研究院(NIH)的其他研究项目合作,共享数据资源,推动跨学科的癌症研究。
    2014年
  • SEER项目继续扩展其数据收集范围,包括更多的癌症类型和人口统计信息,以应对不断变化的公共卫生需求。
    2020年
常用场景
经典使用场景
在癌症研究领域,The National Cancer Institute (NCI) Surveillance, Epidemiology, and End Results (SEER) Program数据集被广泛用于分析癌症的发病率、死亡率及生存率。通过该数据集,研究人员能够深入探讨不同癌症类型的流行病学特征,如年龄、性别、种族和地理位置等因素对癌症发生和发展的影响。
实际应用
在实际应用中,SEER数据集被用于制定和评估公共卫生政策,如癌症筛查和早期检测项目的有效性。医疗机构利用这些数据来改进癌症诊断和治疗方案,提高患者的生存率和生活质量。此外,SEER数据集还支持癌症登记系统的建立和维护,确保数据的连续性和准确性。
衍生相关工作
基于SEER数据集,许多经典研究工作得以开展,如癌症风险预测模型的构建和验证。这些模型在临床实践中被用于个体化医疗,帮助医生制定更精准的治疗计划。此外,SEER数据集还激发了大量关于癌症生物标志物和环境因素的研究,推动了癌症预防和控制领域的创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。

arXiv 收录