Microsoft Concept Graph|自然语言处理数据集|知识图谱数据集
收藏
- Microsoft Concept Graph首次公开发布,作为微软研究院的一项研究成果,旨在通过概念图谱技术增强自然语言处理和信息检索的能力。
- Microsoft Concept Graph开始应用于微软的多个产品和服务中,包括Bing搜索引擎和Cortana个人助理,显著提升了这些产品的语义理解和信息检索效率。
- 微软研究院发布了一系列关于Microsoft Concept Graph的学术论文,详细阐述了其技术架构和在不同应用场景中的表现,进一步推动了该技术在学术界和工业界的认可和应用。
- Microsoft Concept Graph被集成到微软的Azure认知服务中,为企业用户提供高级的语义分析和知识图谱构建工具,促进了企业级应用的发展。
- 微软宣布对Microsoft Concept Graph进行重大更新,增加了对多语言和跨文化理解的支持,扩展了其在全球市场的应用潜力。
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
The Rice Annotation Project Database (RAP-DB)
RAP-DB是一个专注于水稻基因组注释的数据库,提供了水稻基因组的详细注释信息,包括基因结构、功能注释、表达数据等。该数据库旨在为水稻研究者提供一个全面的资源,以促进水稻基因组学和遗传学的研究。
rapdb.dna.affrc.go.jp 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
