LawInstruct 首个法律大型指令数据集|法律数据集|机器学习数据集
收藏BrowseComp-ZH
BrowseComp-ZH 是一个为全面评估大型语言模型(LLM)在中国网络上的浏览能力而设计的基准数据集。该数据集由289个多跳问题组成,涵盖了11个不同的领域,每个问题都经过逆向工程,从一个简短、客观且易于验证的答案(如日期、数字或专有名词)出发。为了确保问题的难度和答案的唯一性,采用了两阶段的质量控制协议。数据集旨在评估LLM在多跳检索、事实推理和在线信息整合方面的能力。数据集、构建指南和基准结果已公开发布。
arXiv 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
中铁十四局大盾构掘进施工大数据
我公司将盾构机掘进施工产生的基础数据开发成中铁十四局大盾构掘进施工大数据。该数据资源集包括:施工进度报表、日报、项目地层信息表、项目地层基本信息表、数字盾构-盾构预警信息、壳智汇-传感器数据、项目坐标、报表-掘进记录、报表统计(全状态下所有数据)、报表统计(全状态下所有数据)、报表统计(掘进状态下所有数据)、项目环报、管片上浮、气泡仓压力表、大直径盾构项目统计、盾构施工历史数据-传感器表、盾构施工历史数据-实时数据、盾构施工历史数据-单环分析结果、结泥饼预警计算存储、临时点位表、点位信息配置表、点位历史数据、环号所在表信息、掘进状态记录表、环数据临时表。
山东数据资产登记平台 收录
MIMIC-IV数据库
MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。
github 收录
AISHELL-2
AISHELL-2是迄今为止可用于普通话ASR研究的最大的言论自由语料库。
OpenDataLab 收录