GDC (Genomic Data Commons)|癌症研究数据集|基因组数据数据集
收藏
- 美国国家癌症研究所(NCI)宣布推出GDC(Genomic Data Commons),这是一个统一的数据共享平台,旨在整合和标准化癌症基因组数据。
- GDC正式上线,开始提供对TCGA(The Cancer Genome Atlas)和其他癌症基因组数据集的访问。
- GDC增加了对TARGET(Therapeutically Applicable Research to Generate Effective Treatments)数据集的支持,进一步扩展了其数据覆盖范围。
- GDC引入了新的数据分析工具和API,增强了用户对基因组数据的访问和分析能力。
- GDC开始整合COVID-19相关的基因组数据,展示了其在公共卫生领域的扩展应用。
- GDC发布了其数据共享和访问政策的更新,强调了数据隐私和安全性的重要性。
- GDC与多个国际研究机构合作,推动全球癌症基因组数据的共享和协作研究。
- 1The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
- 2The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
- 3The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
- 4The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
- 5The Genomic Data Commons: A National Platform for Cancer GenomicsNational Cancer Institute · 2016年
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录