Titanic Dataset|泰坦尼克号数据集|生存分析数据集
收藏
- 泰坦尼克号沉船事件发生,为后续数据集的形成提供了原始数据来源。
- Titanic Dataset首次由罗杰·巴格利(Roger Baggle)在英国统计学会杂志上发表,标志着该数据集的正式诞生。
- Titanic Dataset被广泛应用于数据科学和机器学习领域,成为预测模型和分类算法的经典案例。
- 泰坦尼克号沉船事件100周年纪念,Titanic Dataset再次受到学术界和工业界的关注,推动了数据集的进一步研究和应用。
- 1A Data-Driven Approach to Predicting Survival on the TitanicKaggle · 2012年
- 2Predicting Survival on the Titanic: A Comparative Study of Machine Learning AlgorithmsIEEE · 2018年
- 3An Analysis of Factors Affecting Survival on the Titanic Using Logistic RegressionScienceDirect · 2019年
- 4Survival Prediction on the Titanic: A Deep Learning ApproacharXiv · 2020年
- 5Gender-Based Analysis of Titanic Survivors Using Decision TreesTaylor & Francis · 2021年
COVID-19 Data Hub
COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。
covid19datahub.io 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
CrowdHuman
CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录