Global Health Data Exchange (GHDx)|全球健康数据数据集|公共卫生研究数据集
收藏
- 全球健康数据交换(GHDx)项目正式启动,旨在创建一个全球性的健康数据平台,以促进数据的共享和利用。
- GHDx首次公开发布,标志着其正式进入全球健康数据共享领域,为研究人员、政策制定者和公众提供了一个全面的数据资源。
- GHDx与多个国际组织和研究机构建立合作关系,进一步扩大了其数据覆盖范围和影响力。
- GHDx推出了新的数据可视化工具,增强了用户对全球健康数据的理解和分析能力。
- 在新冠疫情期间,GHDx成为全球健康数据的重要来源,为疫情监测和应对提供了关键数据支持。
TimeExtractor
该数据集由JioNLP创建,旨在微调大型语言模型(LLMs)以从文本中提取时间实体,并将其标准化为JSON格式。数据集分为两部分:general.json包含从各种新闻来源提取的样本,smartspeaker.json包含从语音助手获取的样本。提取过程首先从文本中提取原始时间实体字符串,然后通过大型模型进行标准化处理,最终结果可以输入到JioNLP的时间解析模块jio.parse中进行处理,以获得准确可靠的结果。数据集目前规模较小,未来可以通过添加各种类型的文本来扩展。
huggingface 收录
CodeGen
CodeGen数据集是一个用于代码生成和理解的大型数据集,包含了多种编程语言的代码片段和相应的自然语言描述。该数据集旨在帮助研究人员和开发者训练和评估代码生成模型,提高代码生成的准确性和效率。
github.com 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
ClinicalTrials.gov
Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.
OPEN DATA NETWORK 收录
FishBase Species List
FishBase Species List 是一个包含全球鱼类物种信息的全面数据库。该数据集提供了关于鱼类物种的详细信息,包括物种名称、分类学信息、分布区域、生态习性、繁殖行为、食性等。此外,数据集还包括了每个物种的图片和参考文献,以便用户进行深入研究。
www.fishbase.se 收录