METABRIC|乳腺癌研究数据集|分子生物学数据集
收藏
- METABRIC数据集首次发表在《Nature》期刊上,由Curtis等人提出,包含2500名乳腺癌患者的基因表达数据和临床信息。
- METABRIC数据集被应用于预测乳腺癌患者的生存率,相关研究成果发表在《Nature Communications》上。
- METABRIC数据集被用于开发新的乳腺癌亚型分类模型,研究结果发表在《Journal of Clinical Oncology》。
- METABRIC数据集被整合到多个癌症研究平台,促进了跨学科的数据共享和分析。
- 1The Molecular Taxonomy of Primary Breast CancerUniversity of Cambridge · 2012年
- 2A comprehensive transcriptional portrait of human cancer cell linesWellcome Trust Sanger Institute · 2015年
- 3Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortalMemorial Sloan Kettering Cancer Center · 2013年
- 4A pan-cancer molecular analysis of breast cancer progressionUniversity of California, San Francisco · 2016年
- 5Genomic and molecular landscape of DNA damage repair deficiency across the cancer genome atlasNational Cancer Institute · 2018年
Maddison Project Database
The Maddison Project Database was started in March 2010. The project builds on the original dataset created by economist Agnus Maddison to revise or adjust the historical economic data based on new information. Data for population, GDP, and per capita GDP are presented by countries, small country groups, regions, and the world, dating back to Roman times. In the January 2013 update many of the pre-1820 and all of the pre-1600 numbers for GDP per capita were modified. GDP per capita data for 2009 and 2010 were also added.
Global Health Data Exchange () 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
EcoInvent
EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。
www.ecoinvent.org 收录
LSUI (Large Scale Underwater Image Dataset)
LSUI dataset is a large-scale underwater image dataset that has 5004 image pairs
kaggle 收录