icelab/ntrs_meta|航天技术数据集|信息检索数据集
收藏数据集概述
数据集描述
数据集总结
- 名称: NTRS
- 内容: 包含NASA资助或创建的科学和技术信息的摘要、标题及关联元数据。
- 来源: 直接从NASA技术报告服务器(NTRS)获取。
- 规模: 超过508,000个对象(摘要)。
- 时间范围: 1917年至2022年6月18日。
数据集结构
数据实例
- 数量: 超过508,000个对象。
- 类型: 摘要及关联元数据。
数据字段
- 核心字段:
abstract
: 摘要内容。subjectCategories
: 主题分类。keywords
: 关键词。center
: 中心信息,包括代码、名称和ID。
- 其他字段:
copyright
: 版权信息。exportControl
: 出口控制信息。created
: 创建日期。distributionDate
: 分发日期。otherReportNumbers
: 其他报告编号。onlyAbstract
: 是否仅包含摘要。sensitiveInformation
: 敏感信息级别。title
: 报告标题。stiType
: 报告类型。distribution
: 分发状态。submittedDate
: 提交日期。isLessonsLearned
: 是否为经验教训。disseminated
: 传播类型。stiTypeDetails
: 报告类型详细信息。technicalReviewType
: 技术审查类型。modified
: 修改日期。id
: 唯一标识符。publications
: 相关出版物信息。status
: 数据状态。authorAffiliations
: 作者隶属关系。meetings
: 相关会议信息。fundingNumbers
: 资助编号。redactedDate
: 修订日期。sourceIdentifiers
: 来源标识符。
数据集创建
来源数据
- 类型: 原始数据。
- 处理: 从NTRS直接下载并清理重复的摘要。
使用数据注意事项
- 主要关注字段:
abstract
,subjectCategory
,keywords
,center
。
附加信息
许可信息
- 版权状态: 美国政府作品通常不受版权保护,但可能包含受版权保护的第三方内容。
- 使用限制: 第三方版权内容需遵守版权法,未经许可不得修改、复制或分发。
贡献
- 联系人: @pauldrm。
yolo-datasets
深度学习目标检测数据集/分割数据集最全最完整的数据集集合,包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。
github 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
ReferCOCO数据集
ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集,用于视觉定位任务。数据集包含图像和对应的描述性文本,用于训练和测试模型识别图像中特定对象的能力。
github 收录
MME-RealWorld
MME-RealWorld是一个精心设计的基准,旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像,平均分辨率为2,000 × 1,500像素,涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释,涉及43个任务。数据集的主要优势包括:1) 数据规模:由32名志愿者手动注释的29,429个QA对,是目前已知的最大全人工注释基准。2) 数据质量:高分辨率图像和人工完成的注释,确保了数据质量。3) 任务难度和实际应用价值:即使是最高级的模型,准确率也未超过60%,许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN:针对中文场景收集的图像和注释,解决了英文版本翻译可能存在的问题。
huggingface 收录