Data.gov|数据共享数据集|政府数据数据集
收藏
- Data.gov首次发布,作为美国政府开放数据计划的核心平台,旨在提高政府透明度和促进数据驱动的创新。
- Data.gov开始扩展其数据集,涵盖更多领域,包括环境、教育、交通等,以满足公众和研究者的需求。
- Data.gov引入API接口,使得开发者能够更便捷地访问和利用平台上的数据资源。
- Data.gov推出移动应用程序,进一步提升了数据的可访问性和用户体验。
- Data.gov开始与其他国家和国际组织合作,推动全球范围内的数据开放和共享。
- Data.gov引入数据质量评估工具,以确保平台上数据的高质量和可靠性。
- Data.gov推出数据可视化工具,帮助用户更直观地理解和分析数据。
- Data.gov开始支持更多数据格式和语言,以适应全球用户的需求。
- Data.gov引入机器学习算法,以自动分类和推荐数据集,提升用户体验。
- Data.gov推出数据故事功能,通过案例研究展示数据的应用和价值。
- Data.gov开始支持区块链技术,以增强数据的安全性和透明度。
- Data.gov推出COVID-19数据专区,集中发布与疫情相关的数据,支持公共卫生研究和决策。
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
GVJahnavi/Crops_set
该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。
hugging_face 收录