five

SEER|癌症研究数据集|公共卫生数据集

收藏
seer.cancer.gov2024-10-24 收录
癌症研究
公共卫生
下载链接:
https://seer.cancer.gov/
下载链接
链接失效反馈
资源简介:
SEER(Surveillance, Epidemiology, and End Results)数据集是由美国国家癌症研究所(NCI)维护的一个大型癌症数据库,包含了美国多个地区的癌症发病率和生存率数据。该数据集涵盖了多种癌症类型,提供了详细的病例信息,包括患者的年龄、性别、种族、诊断日期、治疗方式等。
提供机构:
seer.cancer.gov
AI搜集汇总
数据集介绍
main_image_url
构建方式
SEER数据集的构建基于美国国家癌症研究所(NCI)的监测、流行病学和最终结果(SEER)计划,该计划自1973年以来持续收集和更新癌症病例数据。数据集涵盖了美国多个地区的癌症病例,包括患者的诊断信息、治疗方案和生存状态等。通过与各州卫生部门和医疗机构的合作,SEER数据集得以定期更新,确保数据的时效性和准确性。
特点
SEER数据集以其广泛的地理覆盖和长期的纵向数据而著称,提供了丰富的癌症流行病学信息。该数据集包含了多种癌症类型的详细记录,允许研究人员进行深入的统计分析和模型构建。此外,SEER数据集的公开性和可访问性极高,为全球癌症研究者提供了宝贵的资源。
使用方法
研究人员可以通过SEER数据集进行多种癌症相关研究,包括但不限于癌症发病率分析、生存率预测和治疗效果评估。使用该数据集时,研究者需遵循NCI的数据使用协议,确保数据的合法和道德使用。通常,数据分析前需进行数据清洗和预处理,以确保分析结果的准确性和可靠性。
背景与挑战
背景概述
SEER(Surveillance, Epidemiology, and End Results)数据集由美国国家癌症研究所(NCI)于1973年启动,旨在通过收集和分析癌症病例数据,提供对癌症流行病学、治疗效果和生存率的全面理解。该数据集涵盖了美国多个州的癌症病例,包括患者的诊断信息、治疗方案和生存状态等。SEER数据集的建立标志着癌症研究进入了一个新的时代,为全球癌症研究和公共卫生政策制定提供了宝贵的数据支持。
当前挑战
SEER数据集在构建过程中面临诸多挑战。首先,数据收集涉及多个医疗机构,确保数据的一致性和准确性是一个复杂的过程。其次,随着医学技术的进步,数据集需要不断更新以反映最新的诊断和治疗信息。此外,数据隐私和安全问题也是SEER数据集必须面对的重要挑战,如何在保护患者隐私的同时提供有价值的研究数据,是一个亟待解决的问题。最后,数据集的分析和解读需要高度专业化的知识和技能,以确保研究结果的科学性和可靠性。
发展历史
创建时间与更新
SEER数据集创建于1973年,由美国国家癌症研究所(NCI)发起,旨在收集和分析美国各地的癌症发病率和生存率数据。自创建以来,SEER数据集定期更新,最近一次大规模更新是在2021年,涵盖了截至2018年的数据。
重要里程碑
SEER数据集的重要里程碑包括1973年的初始发布,标志着癌症统计数据的标准化和系统化收集的开始。1992年,SEER与美国癌症登记协会(NAACCR)合作,进一步扩展了数据收集的范围和深度。2000年,SEER-Medicare数据链接项目的启动,使得研究人员能够更全面地分析癌症患者的医疗利用和治疗效果。2018年,SEER数据集引入了新的数据字段,以更好地反映现代癌症治疗和诊断的进展。
当前发展情况
当前,SEER数据集已成为全球癌症研究的重要资源,为癌症流行病学、预防和治疗策略的制定提供了关键数据支持。其数据不仅用于学术研究,还广泛应用于公共卫生政策制定和临床实践指南的更新。随着大数据和人工智能技术的发展,SEER数据集的应用前景更加广阔,预计将在个性化医疗和精准治疗领域发挥更大的作用。
发展历程
  • SEER数据集首次由美国国家癌症研究所(NCI)启动,旨在收集和分析美国各地的癌症发病率和生存率数据。
    1973年
  • SEER数据集首次发布,涵盖了美国17个地区的癌症病例数据,标志着癌症流行病学研究的重要里程碑。
    1975年
  • SEER数据集扩展至覆盖美国20个地区,增加了数据的地理覆盖范围,提升了数据集的代表性。
    1980年
  • SEER数据集引入计算机化数据管理系统,显著提高了数据处理和分析的效率。
    1992年
  • SEER数据集进一步扩展,覆盖了美国近26%的人口,成为全球最大的癌症登记数据集之一。
    2000年
  • SEER数据集开始提供在线数据访问服务,使得研究人员能够更便捷地获取和分析数据。
    2007年
  • SEER数据集引入新的数据收集标准,包括更详细的分子病理学信息,提升了数据集的科学价值。
    2015年
  • SEER数据集发布最新的数据更新,涵盖了超过40年的癌症病例数据,继续为全球癌症研究提供重要支持。
    2020年
常用场景
经典使用场景
在癌症研究领域,SEER数据集被广泛用于分析不同类型癌症的发病率、死亡率和生存率。通过该数据集,研究人员能够深入探讨癌症的流行病学特征,如年龄、性别、种族和地理位置对癌症发病的影响。此外,SEER数据集还支持对癌症治疗效果的长期跟踪,为临床决策提供科学依据。
衍生相关工作
SEER数据集的广泛应用催生了众多相关研究工作。例如,基于SEER数据,研究人员开发了多种癌症风险预测模型,这些模型在临床实践中被用于个体化治疗方案的制定。此外,SEER数据还促进了跨学科研究,如与基因组学数据的结合,以探索癌症的遗传和环境因素。
数据集最近研究
最新研究方向
在癌症研究领域,SEER数据集作为全球最具影响力的癌症登记数据库之一,其最新研究方向主要集中在利用大数据分析技术,深入挖掘癌症发病率、死亡率及生存率的趋势与模式。研究者们通过整合多源数据,如基因组学、流行病学和社会经济数据,以期揭示癌症风险因素的复杂交互作用。此外,人工智能和机器学习方法的应用,使得对大规模数据的处理和预测模型构建成为可能,从而为个性化治疗和公共卫生政策的制定提供了科学依据。这些前沿研究不仅推动了癌症预防和治疗的创新,还对全球公共卫生策略的优化产生了深远影响。
相关研究论文
  • 1
    The Surveillance, Epidemiology, and End Results (SEER) Program of the National Cancer InstituteNational Cancer Institute · 2002年
  • 2
    Cancer Statistics, Trends, and Multiple Primary Cancer Analyses from the Surveillance, Epidemiology, and End Results (SEER) ProgramNational Cancer Institute · 2007年
  • 3
    The SEER-Medicare Data: A National ResourceNational Cancer Institute · 2012年
  • 4
    Using the SEER-Medicare Data to Study Cancer Outcomes and Quality of CareNational Cancer Institute · 2014年
  • 5
    Cancer Statistics in the United States: An Overview from the SEER ProgramNational Cancer Institute · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

NuminaMath-CoT

数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。

huggingface 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录