icelab/ntrs_meta|航天技术数据集|信息检索数据集

hugging_face2022-08-18 更新2024-03-04 收录

航天技术

信息检索

下载链接：

https://hf-mirror.com/datasets/icelab/ntrs_meta

下载链接

链接失效反馈

资源简介：

NTRS数据集收集了由NASA资助或创建的科学和技术信息，提供了元数据以及摘要和全文的访问。该数据集包含所有在NTRS上索引的摘要、标题和相关元数据。数据集涵盖了从1917年到2022年6月18日的NASA资助项目的摘要和相关元数据，是航天器设计和空间科学领域语言建模的丰富数据源。

提供机构：

icelab

原始信息汇总

数据集概述

数据集描述

数据集总结

名称: NTRS
内容: 包含NASA资助或创建的科学和技术信息的摘要、标题及关联元数据。
来源: 直接从NASA技术报告服务器(NTRS)获取。
规模: 超过508,000个对象（摘要）。
时间范围: 1917年至2022年6月18日。

数据集结构

数据实例

数量: 超过508,000个对象。
类型: 摘要及关联元数据。

数据字段

核心字段:
- abstract: 摘要内容。
- subjectCategories: 主题分类。
- keywords: 关键词。
- center: 中心信息，包括代码、名称和ID。
其他字段:
- copyright: 版权信息。
- exportControl: 出口控制信息。
- created: 创建日期。
- distributionDate: 分发日期。
- otherReportNumbers: 其他报告编号。
- onlyAbstract: 是否仅包含摘要。
- sensitiveInformation: 敏感信息级别。
- title: 报告标题。
- stiType: 报告类型。
- distribution: 分发状态。
- submittedDate: 提交日期。
- isLessonsLearned: 是否为经验教训。
- disseminated: 传播类型。
- stiTypeDetails: 报告类型详细信息。
- technicalReviewType: 技术审查类型。
- modified: 修改日期。
- id: 唯一标识符。
- publications: 相关出版物信息。
- status: 数据状态。
- authorAffiliations: 作者隶属关系。
- meetings: 相关会议信息。
- fundingNumbers: 资助编号。
- redactedDate: 修订日期。
- sourceIdentifiers: 来源标识符。

数据集创建

来源数据

类型: 原始数据。
处理: 从NTRS直接下载并清理重复的摘要。

使用数据注意事项

主要关注字段: abstract, subjectCategory, keywords, center。

附加信息

许可信息

版权状态: 美国政府作品通常不受版权保护，但可能包含受版权保护的第三方内容。
使用限制: 第三方版权内容需遵守版权法，未经许可不得修改、复制或分发。

贡献

联系人: @pauldrm。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

yolo-datasets

深度学习目标检测数据集/分割数据集最全最完整的数据集集合，包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集，用于视觉定位任务。数据集包含图像和对应的描述性文本，用于训练和测试模型识别图像中特定对象的能力。

github 收录

MME-RealWorld

MME-RealWorld是一个精心设计的基准，旨在解决现实世界应用中的实际问题。该数据集包含13,366张高分辨率图像，平均分辨率为2,000 × 1,500像素，涵盖29,429个由25名众包工作者和7名MLLM专家精心制作的注释，涉及43个任务。数据集的主要优势包括：1) 数据规模：由32名志愿者手动注释的29,429个QA对，是目前已知的最大全人工注释基准。2) 数据质量：高分辨率图像和人工完成的注释，确保了数据质量。3) 任务难度和实际应用价值：即使是最高级的模型，准确率也未超过60%，许多现实世界的任务比传统基准更难。4) 中文版本MME-RealWord-CN：针对中文场景收集的图像和注释，解决了英文版本翻译可能存在的问题。

huggingface 收录