VetDataHub|兽医医学数据集|数据共享数据集

github2024-05-17 更新2024-05-31 收录

兽医医学

数据共享

下载链接：

https://github.com/JohananOppongAmoateng/VetDataHub

下载链接

链接失效反馈

资源简介：

VetDataHub是一个开源的兽医数据集仓库，致力于通过共享和交换多样化的数据集来推进兽医医学。该项目旨在使开源兽医数据对全球的兽医专业人员、研究人员和数据科学家可用，以便他们能够为研究、诊断和动物健康决策提供有价值的数据集。

VetDataHub is an open-source veterinary dataset repository dedicated to advancing veterinary medicine through the sharing and exchange of diverse datasets. The project aims to make open-source veterinary data available to veterinary professionals, researchers, and data scientists worldwide, enabling them to provide valuable datasets for research, diagnosis, and animal health decision-making.

创建时间：

2024-03-23

原始信息汇总

数据集概述

数据集名称

VetDataHub

数据集描述

VetDataHub是一个开源的兽医数据集仓库，旨在通过共享和交换多样化的数据集来推动兽医医学的发展。该项目致力于为全球的兽医专业人员、研究人员和数据科学家提供开源兽医数据，以支持研究、诊断和动物健康决策。

关键特性

多样化数据集：包括医学图像、临床记录、基因组数据、流行病学数据等。
社区协作：与热衷于利用数据科学促进动物福利的贡献者和用户互动。
开放访问：自由访问数据集，支持研究人员、学生和从业者解决兽医医学中的紧迫挑战。
伦理标准：坚持伦理标准和数据隐私原则，确保负责任的数据共享和使用。
文档和支持：提供全面的文档、教程和用户支持，以促进数据集的发现、理解和利用。

贡献指南

确保数据集无版权或使用限制。
禁止成人内容。
数据集应分类存放于datasets文件夹中。
数据集应采用zip或rar等归档格式。
图像数据应保持原始状态，仅允许旋转操作，禁止其他编辑。
禁止使用AI或计算机生成的数据集。

AI搜集汇总

数据集介绍

构建方式

VetDataHub数据集的构建基于全球兽医专业人士、研究人员和数据科学家的广泛贡献。该数据集通过收集和整理多种类型的兽医数据，包括医学影像、临床记录、基因组数据和流行病学数据等，形成了一个多元化的开放资源库。所有数据均需符合开放访问原则，确保无版权限制且不包含成人内容。数据集的分类和存储遵循严格的格式要求，以确保数据的真实性和可用性。

特点

VetDataHub数据集的显著特点在于其多样性和开放性。数据涵盖了从医学影像到基因组数据的广泛领域，为兽医学研究提供了丰富的资源。社区协作是该数据集的另一大特色，通过全球用户的参与和反馈，不断丰富和优化数据内容。此外，数据集严格遵守伦理标准和数据隐私原则，确保数据使用的合法性和道德性。

使用方法

VetDataHub数据集的使用方法简便且灵活。用户可以通过访问数据集的GitHub页面，浏览并下载所需的数据文件。数据集提供了详尽的文档和教程，帮助用户快速理解和利用数据。用户还可以通过提交反馈或参与讨论，进一步推动数据集的改进和扩展。对于有贡献意愿的用户，可以通过提交新的数据集或提出改进建议，参与到数据集的共建中。

背景与挑战

背景概述

VetDataHub作为一个开源的兽医数据集仓库，旨在通过共享和交换多样化的数据集，推动兽医学的发展。该项目的创建时间虽未明确提及，但其核心研究问题在于通过数据科学的力量，提升动物健康领域的研究、诊断和决策水平。主要研究人员或机构可能包括全球范围内的兽医专业人士、研究人员和数据科学家。VetDataHub的影响力在于其为兽医界提供了一个开放的平台，使得研究人员和从业者能够自由获取和利用数据，从而解决兽医学中的紧迫问题。

当前挑战

VetDataHub在构建过程中面临多项挑战。首先，确保数据集的多样性和高质量是一个重要挑战，要求数据集不仅涵盖广泛的兽医领域，还需保证其自然性和未经过人工编辑。其次，维护数据隐私和伦理标准是另一大挑战，确保所有共享的数据符合伦理要求，避免侵犯隐私。此外，吸引和维持一个活跃的社区贡献者群体也是一项持续的挑战，需要通过有效的沟通和协作机制来实现。最后，提供全面的支持和文档，以帮助用户理解和利用数据集，也是项目成功的关键。

常用场景

经典使用场景

在兽医学领域，VetDataHub数据集的经典使用场景主要体现在其为研究人员和临床工作者提供了丰富的多模态数据资源。这些数据涵盖了从临床记录到基因组数据，再到流行病学资料的广泛范围，使得研究者能够深入探索动物健康与疾病的相关性。通过整合这些数据，研究者可以进行跨学科的研究，如利用医学影像数据与临床记录相结合，开发更精准的诊断模型，从而提升兽医诊断的准确性和效率。

衍生相关工作

VetDataHub数据集的开放性和多样性激发了众多相关研究工作的开展。例如，基于该数据集的研究已衍生出多个关于动物疾病预测和诊断的机器学习模型，这些模型在提高诊断准确性和效率方面表现出色。此外，数据集还促进了跨学科的合作，如兽医学与数据科学的结合，推动了新型数据分析工具和平台的开发，进一步提升了兽医学研究和实践的水平。

数据集最近研究

最新研究方向

在兽医学领域，VetDataHub数据集的最新研究方向主要集中在通过多源数据的整合与分析，推动动物健康管理的智能化与精准化。研究者们正利用该数据集中的临床记录、影像数据及基因组信息，探索疾病预测模型与个性化治疗方案，以提升诊断效率与治疗效果。同时，随着数据科学的快速发展，VetDataHub为全球研究者提供了一个开放的平台，促进了跨学科的合作，特别是在流行病学与公共卫生领域的应用，为动物健康与人类健康的交叉研究提供了新的视角与工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。

国家青藏高原科学数据中心收录