The National Cancer Institute (NCI) Surveillance, Epidemiology, and End Results (SEER) Program|癌症研究数据集|公共卫生数据集
收藏
- 美国国家癌症研究所(NCI)启动了SEER项目,旨在通过收集和分析癌症发病率和生存率数据,提供全面的癌症监测和流行病学研究。
- SEER项目首次发布了其数据,涵盖了美国多个地区的癌症病例,为癌症研究和公共卫生政策制定提供了重要依据。
- SEER项目扩展了其覆盖范围,增加了更多的地理区域,以提高数据的代表性和全面性。
- SEER项目开始采用国际疾病分类(ICD)编码系统,以标准化癌症病例的分类和统计方法。
- SEER项目引入了更详细的数据收集标准,包括分子生物学和遗传学信息,以支持更深入的癌症研究。
- SEER项目发布了SEER*Stat软件,用于数据分析和可视化,极大地促进了研究人员对癌症数据的利用和理解。
- SEER项目开始与美国国家卫生研究院(NIH)的其他研究项目合作,共享数据资源,推动跨学科的癌症研究。
- SEER项目继续扩展其数据收集范围,包括更多的癌症类型和人口统计信息,以应对不断变化的公共卫生需求。
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。
arXiv 收录