UCI Machine Learning Repository: Gas Turbine CO and NOx Emission Data Set|燃气轮机排放数据集|环境监测数据集
收藏
- UCI Machine Learning Repository首次发布Gas Turbine CO and NOx Emission Data Set,该数据集包含燃气轮机在不同操作条件下的CO和NOx排放数据,旨在支持环境监测和机器学习模型的训练。
- 该数据集被广泛应用于多个研究项目中,特别是在环境科学和工程领域,用于开发和验证预测模型,以优化燃气轮机的排放控制策略。
- 随着数据集的普及,研究人员开始探索其在能源管理和可持续发展中的应用,进一步扩展了数据集的影响范围。
- 数据集的持续更新和扩展,增加了更多的操作参数和环境条件数据,以提高模型的准确性和适用性。
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
WEATHER-5K
WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集,包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素,旨在为全球站点气象预报(GSWF)提供一个可靠和可解释的资源,并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法,还扩展到未来时间序列研究挑战和机会,通过广泛的时序预测基准测试,推动该领域的显著进步。
arXiv 收录
HyperGlobal-450K - 全球最大规模高光谱图像数据集
HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。
github 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录