Weather Captioned Dataset

github2024-07-26 更新2024-07-28 收录

下载链接：

https://github.com/VEWOXIC/Weather-Captioned

下载链接

链接失效反馈

官方服务：

资源简介：

Weather Captioned Dataset是一个多模态的时间序列文本数据集，包含来自Max-Planck-Institut fur Biogeochemie, jena的天气数据和公开可用的天气预报平台的预报报告。数据集还包括使用GPT4生成的描述和预嵌入的新闻文本。

Weather Captioned Dataset is a multimodal time-series text dataset comprising weather data from the Max-Planck-Institut für Biogeochemie in Jena and forecast reports from publicly available weather forecast platforms. The dataset also includes descriptions generated using GPT-4 and pre-embedded news texts.

创建时间：

2024-07-26

原始信息汇总

Weather Captioned - First Time Series - Text Multi-modal Dataset

数据来源

时间序列数据来自Max-Planck-Institut fur Biogeochemie, jena的WS Beutenberg站点。
天气预报报告来自公开可用的天气预报平台。

关于描述

描述是基于从公开可用的天气预报源获取的原始数据生成的。
没有向大型语言模型提供时间序列数据。
描述由GPT4生成，生成脚本位于data_process_scripts/weather_caption.py。
整个数据集的描述成本可能超过400美元。
鼓励用户自行生成描述。

关于预嵌入

提供了新闻文本的预嵌入。
预嵌入可以通过这里下载。
预嵌入生成脚本位于data_process_scripts/embedding_caption_local.ipynb和data_process_scripts/embedding_caption.ipynb。

数据处理流程

使用两个哈希表管理新闻数据，使其与时间序列按时间顺序对齐。
新闻文本的嵌入以npy文件形式保存，文件名作为哈希键。
时间戳对应的时间序列段通过Date2Hash哈希表转换为新闻哈希键列表，再通过Hash2Emb哈希表读取嵌入。
可以使用Hash2Text哈希表检查哈希键对应的新闻文本。

搜集汇总

数据集介绍

构建方式

Weather Captioned Dataset的构建基于Max-Planck-Institut fur Biogeochemie, jena的WS Beutenberg站点提供的时间序列数据，以及从公开天气预报平台收集的天气预报报告。数据集的描述文本由GPT-4生成，未使用时间序列数据作为输入。生成过程通过脚本自动化，存储在指定的文件夹中。此外，数据集还包含了预先嵌入的文本信息，这些嵌入通过特定的脚本生成并存储为npy文件，便于后续的数据处理和分析。

特点

Weather Captioned Dataset的显著特点在于其多模态数据的整合，包括时间序列数据和文本描述。数据集的描述文本由GPT-4生成，确保了文本的高质量和多样性。此外，数据集提供了预嵌入的文本信息，这些嵌入信息以npy文件形式存储，便于快速检索和使用。数据集的构建过程中，使用了两个哈希表来管理数据，确保了时间序列与文本数据的对齐。

使用方法

使用Weather Captioned Dataset时，用户可以通过提供的哈希表结构，快速检索与时间序列段对应的文本描述。预嵌入的文本信息可以通过gdown工具从指定链接下载，并使用提供的脚本进行处理。用户还可以利用Hash2Text哈希表来检查特定哈希键对应的原始新闻文本。数据集的设计旨在支持多模态数据的联合分析，适用于需要结合时间序列和文本信息的研究和应用场景。

背景与挑战

背景概述

Weather Captioned Dataset（天气标注数据集）是由Max-Planck-Institut fur Biogeochemie, jena的WS Beutenberg站点提供的时间序列数据与公共天气预报平台收集的天气预报报告相结合构建的。该数据集的核心研究问题在于如何通过大型语言模型（如GPT4）生成与时间序列数据对齐的天气描述，从而实现多模态数据的融合。数据集的创建旨在推动时间序列与文本数据的联合分析，特别是在气象预测和环境科学领域，为研究人员提供了一个独特的多模态数据资源。

当前挑战

Weather Captioned Dataset在构建过程中面临多项挑战。首先，数据集的生成依赖于GPT4模型，这不仅成本高昂（超过400美元），而且生成的描述可能并非最优。其次，时间序列数据与文本数据的精确对齐需要复杂的哈希表管理，确保数据在时间维度上的准确性。此外，预嵌入过程的自动化和效率也是一个重要挑战，尤其是在处理大规模数据时。这些挑战不仅影响了数据集的构建效率，也对其在实际应用中的准确性和可靠性提出了考验。

常用场景

经典使用场景

在气象学与自然语言处理交叉领域，Weather Captioned Dataset 提供了一个独特的平台，用于研究时间序列数据与文本描述之间的多模态关联。该数据集结合了来自Max-Planck-Institut fur Biogeochemie的气象时间序列数据与通过GPT-4生成的天气预报文本描述，使得研究者能够探索如何通过自然语言模型来理解和预测气象变化。这一经典场景不仅推动了多模态学习的边界，也为气象预报的自动化和智能化提供了新的视角。

解决学术问题

Weather Captioned Dataset 在学术研究中解决了多模态数据融合的关键问题，特别是在时间序列数据与文本信息如何有效结合方面。通过提供高质量的天气预报文本描述，该数据集帮助研究者开发和验证新的算法，以提高气象预测的准确性和可靠性。此外，它还促进了自然语言处理技术在气象学中的应用，为跨学科研究提供了丰富的数据资源，具有重要的学术价值和实际意义。

衍生相关工作

Weather Captioned Dataset 的发布激发了一系列相关研究工作，特别是在多模态学习和自然语言处理领域。研究者们利用该数据集开发了多种算法，用于时间序列数据的文本描述生成和理解。此外，该数据集还促进了气象学与计算机科学的跨学科合作，推动了新的研究方向，如基于文本的气象预测模型和多模态数据融合技术。这些衍生工作不仅丰富了学术研究的内容，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集