The National Center for Biotechnology Information (NCBI) GenBank|基因组学数据集|生物信息学数据集
收藏
- NCBI GenBank首次发布,作为美国国家卫生研究院(NIH)的一部分,旨在存储和提供生物序列数据。
- GenBank与欧洲分子生物学实验室(EMBL)和日本DNA数据库(DDBJ)建立合作关系,形成国际核苷酸序列数据库合作(INSDC)。
- GenBank引入BLAST(Basic Local Alignment Search Tool)工具,显著提升了序列比对和搜索的效率。
- GenBank开始支持大规模基因组测序项目,如人类基因组计划,极大地扩展了其数据存储和分析能力。
- GenBank发布其首个完整的人类基因组序列草图,标志着基因组学研究的重要里程碑。
- GenBank引入序列注释和元数据的标准化框架,提高了数据质量和互操作性。
- GenBank开始支持下一代测序技术,进一步扩展其数据类型和容量。
- GenBank推出其云服务,提供更高效的数据访问和分析工具。
- GenBank发布COVID-19病毒基因组序列,支持全球抗击疫情的研究和开发。
- 1GenBankNational Center for Biotechnology Information (NCBI) · 2005年
- 2The Universal Protein Resource (UniProt) in 2010European Bioinformatics Institute · 2010年
- 3The Gene Ontology resource: 20 years and still GOing strongGene Ontology Consortium · 2019年
- 4The Sequence Read ArchiveNational Center for Biotechnology Information (NCBI) · 2011年
- 5The European Nucleotide Archive in 2017European Molecular Biology Laboratory · 2017年
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
ZuantuSet
ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式,还分析了其背后的历史和文化成因,为数字人文领域的研究提供了丰富的资源。
arXiv 收录