CodeSearchNet Evaluation|代码搜索数据集|模型评估数据集
收藏
- CodeSearchNet Evaluation数据集首次发表,作为CodeSearchNet挑战赛的一部分,旨在评估代码搜索模型的性能。
- CodeSearchNet Evaluation数据集被广泛应用于多个研究论文中,用于验证和比较不同代码搜索模型的效果。
- CodeSearchNet Evaluation数据集的扩展版本发布,增加了更多的编程语言和代码片段,以提升数据集的多样性和覆盖范围。
- 1CodeSearchNet Challenge: Evaluating the State of Semantic Code SearchAllen Institute for AI · 2019年
- 2Evaluating Code Autocompletion SystemsUniversity of Washington · 2020年
- 3CodeBERT: A Pre-Trained Model for Programming and Natural LanguagesMicrosoft Research · 2020年
- 4Learning to Represent Programs with GraphsUniversity of California, Berkeley · 2018年
- 5A Survey of Code Search: Methods, Tools, and ApplicationsUniversity of Waterloo · 2021年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
WEATHER-5K
WEATHER-5K是由香港科技大学上海人工智能实验室创建的大规模全球气象站数据集,包含来自5672个全球气象站的10年每小时气象数据。该数据集覆盖多种关键气象要素,旨在为全球站点气象预报(GSWF)提供一个可靠和可解释的资源,并作为评估现有预测模型的基准。WEATHER-5K不仅支持GSWF方法,还扩展到未来时间序列研究挑战和机会,通过广泛的时序预测基准测试,推动该领域的显著进步。
arXiv 收录
大学生运动和体质健康数据集(2014-2023)
《大学生运动与体质健康数据集(2014-2023)》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年,样本采集自全国34个省级行政区域,共计123281名大学生参与,平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势,了解大学生运动和体质健康状况,对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。
国家人口健康科学数据中心 收录