ai-aerospace/ams_data_full_2000-2020|航空航天数据集|文档解析数据集

hugging_face2024-04-07 更新2024-06-11 收录

航空航天

文档解析

下载链接：

https://hf-mirror.com/datasets/ai-aerospace/ams_data_full_2000-2020

下载链接

链接失效反馈

资源简介：

该数据集包含了从2000年到2022年的所有航空航天机制研讨会的PDF文档，这些文档已按页解析。未进行任何分割处理。原始文档存储于指定的GitHub仓库中。

提供机构：

ai-aerospace

原始信息汇总

数据集概述

数据集名称

名称: Aerospace Mechanism Symposia PDF documents

数据集内容

内容描述: 包含2000年至2022年的所有航天机制研讨会文档，按页解析，未进行分割。

数据集来源

原始文档位置: https://github.com/dan-s-mueller/aerospace_chatbot/tree/main/data/AMS

数据集属性

许可证: MIT
任务类别:
- 问答
- 摘要生成
语言: 英语

AI搜集汇总

数据集介绍

构建方式

针对航空航天领域的研究需求，该数据集ai-aerospace/ams_data_full_2000-2020的构建采取了全面收集2000年至2022年间Aerospace Mechanism Symposia的PDF文档，并进行了逐页解析，确保了数据的完整性。数据来源于原始文档库，其中包含了全部会议论文，未经任何分割处理。

特点

本数据集的特色在于其涵盖了航空航天机制研讨会的全部文献资源，时间跨度长达22年，为研究者和开发者提供了丰富的文本数据。数据集以英文为主，适用于问题回答和文本摘要等任务，支持深入挖掘航空航天领域的专业知识。

使用方法

用户可按照MIT许可证的规定使用本数据集，访问方式为直接下载。在使用时，研究者可针对问题回答和文本摘要等任务进行训练和测试，以提升相关模型在航空航天领域的性能。数据集的原始链接提供了文档的出处，便于用户验证和引用。

背景与挑战

背景概述

在航空航天领域，技术交流与知识传承至关重要。ams_data_full_2000-2020数据集，由dan-s-mueller整理，涵盖了2000年至2022年间Aerospace Mechanism Symposia的会议论文。该数据集旨在为自然语言处理任务如问答和摘要提供丰富的文本资源，对于推动航空航天领域知识自动化处理具有重要的研究价值。

当前挑战

该数据集在构建过程中，面临了如何完整无遗漏地解析PDF文档的挑战，同时，由于涵盖的文献时间跨度较长，对文档的格式统一和标准化处理提出了更高的要求。在使用该数据集时，研究人员需解决如何从大量非结构化文本中提取结构化信息的问题，以及在多语言环境下保持自然语言处理的一致性和准确性。

常用场景

经典使用场景

在航空航天领域的研究与应用中，ai-aerospace/ams_data_full_2000-2020数据集的典型应用场景是文本挖掘和信息提取。该数据集包含了2000年至2022年间的全部Aerospace Mechanism Symposia的PDF文档，为研究人员提供了丰富的文本资源，使其能够有效地进行文献分析和知识发现。

衍生相关工作

基于此数据集，研究者们衍生出了一系列相关工作，包括但不限于构建专业的问答系统、进行文献的自动摘要生成以及开发更为先进的文本分类和聚类算法。这些工作进一步推动了航空航天领域的信息化进程，对促进科技创新和技术传播产生了深远影响。

数据集最近研究

最新研究方向

在航空机制领域，ams_data_full_2000-2020数据集的近期研究集中于深度学习技术在文献解析与知识提取中的应用。该数据集涵盖了2000至2022年间所有航空航天机制研讨会的PDF文档，为自然语言处理任务如问答系统和文本摘要提供了丰富的资源。前沿研究方向涉及利用该数据集进行模型训练，以实现更高效的文献检索和智能问答，从而推动航空科技信息的快速获取与利用。此研究不仅对学术交流有显著影响，也对航空航天行业的知识传播与技术创新具有重要意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

ConPR

ConPR数据集由首尔国立大学的机械工程系创建，专注于一个活跃的建筑工地，用于多会话地点识别。该数据集包含12个序列，每个序列捕捉不同日期的建筑进度，涵盖多种环境如车道、楼梯和狭窄的森林道路。数据集包括RGB图像、LiDAR点云数据和IMU数据，支持视觉和LiDAR基础的地点识别技术，并提供基于范围的地点识别评估的地面真实信息。该数据集旨在推动在动态和挑战性环境中的地点识别算法的发展。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录