KUCI|自然语言处理数据集|常识推理数据集
收藏数据集概述
数据集名称: Kyoto University Commonsense Inference dataset (KUCI)
目的: 用于训练和评估语言模型对基本条件关系(常识性条件推理)的推理能力。
数据集构成: 包含104,000个多选题,每个问题涉及基本的条件关系推理。
构建方法: 采用半自动方法,包括从原始语料库自动提取具有条件关系的基本事件表达对,通过众包进行验证,以及从验证过的对中自动生成推理问题。
数据集示例
text 電池の減りはやはり早いので、 (The battery drains so fast that) a. 実際の半導体製造装置は実現しません (actual semiconductor manufacturing equipment is not realized) b. 今回は期間限定でのお届けになります (it is a limited-time offer this time) c. 原子炉を手動停止する ({I} manually shut down a nuclear reactor) d. 充電用にUSBケーブル買います ({I} buy a USB cable for charging) ※ {} denotes a dropped pronoun.
任务: 选择最合适的选项作为给定上下文的延续。示例中正确答案为 d。
数据集统计
类型 | 数量 |
---|---|
训练集 | 83,127 |
开发集 | 10,228 |
测试集 | 10,291 |
额外资源: 提供862,000个伪问题。
数据格式
格式: JSON Lines
字段:
id
: 问题唯一编号context
: 上下文choice_{a, b, c, d}
: 选项label
: 正确答案标签agreement
: 众包工人对条件关系的一致性投票数core_event_pair
: 构成问题的核心事件对
许可证
许可证: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)

Global Firepower Index (GFI)
Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。
www.globalfirepower.com 收录
GlobalBuildingAtlas
GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。
arXiv 收录
ai-hub2
本项目所使用的数据集名为“ai-hub2”,其主要目的是为改进YOLOv11的工地工程车辆装置检测系统提供高质量的训练数据。该数据集包含五个类别,分别是:钻孔机(boring_machine)、混凝土车(concrete_truck)、起重机(crane)、自卸车(dump_truck)和挖掘机(excavator)。这些类别涵盖了工地上常见的重型机械设备,能够有效支持车辆检测系统在复杂环境中的应用。
github 收录
中国1km分辨率年降水量数据(1901-2023年)
中国1km分辨率年降水量数据(1901-2023年)根据西北农林科技大学彭守璋研究员团队研制的1901-2023年中国1km分辨率逐月降水量数据集进行年度累加合成后除以10进行单位换算后得到。数据包含多个TIF文件,每个TIF文件为对应年份的年累加降水量,降水量单位为mm。彭守璋研究员在《Earth System Science Data》以论文形式发布了1 km monthly temperature and precipitation dataset for China from 1901 to 2017数据。论文链接https://doi.org/10.5194/essd-11-1931-2019。
国家地球系统科学数据中心 收录
ACDC(Automated Cardiac Diagnosis Challenge)
自动心脏诊断挑战 (ACDC) 挑战的目标是:比较自动方法在将左心室心内膜和心外膜分割为舒张末期和收缩末期实例的右心室心内膜方面的性能;比较自动方法对五类检查(正常病例、心力衰竭伴梗死、扩张型心肌病、肥厚型心肌病、右心室异常)的分类性能。整个 ACDC 数据集是根据在第戎大学医院获得的真实临床检查创建的。获得的数据完全匿名,并根据第戎医院(法国)当地伦理委员会制定的规定进行处理。我们的数据集涵盖了几个定义明确的病理学,并有足够的案例来 (1) 正确训练机器学习方法和 (2) 清楚地评估从电影 MRI 获得的主要生理参数的变化(特别是舒张期容积和射血分数)。该数据集由 150 个检查(全部来自不同的患者)组成,分为 5 个均匀分布的亚组(4 个病理组和 1 个健康受试者组),如下所述。此外,每位患者都附带以下附加信息:体重、身高以及舒张期和收缩期瞬间。该数据库在个人注册后通过专用在线评估网站的两个数据集提供给参与者:i) 100 名患者的培训数据集以及基于一位临床专家分析的相应手册参考; ii) 由 50 名新患者组成的测试数据集,没有手动注释,但有上面给出的患者信息。原始输入图像通过 Nifti 格式提供。
OpenDataLab 收录