five

Context is Key (CiK)|时间序列预测数据集|多模态数据数据集

收藏
arXiv2024-10-25 更新2024-10-26 收录
时间序列预测
多模态数据
下载链接:
https://servicenow.github.io/context-is-key-forecasting/v0/
下载链接
链接失效反馈
资源简介:
Context is Key (CiK) 是一个时间序列预测基准数据集,由ServiceNow Research等机构创建。该数据集包含71个预测任务,涵盖7个应用领域,结合了数值数据和精心设计的文本上下文,要求模型整合这两种模态。数据集的内容包括来自公共来源的2,644个真实世界的时间序列数据和部分模拟数据,采样频率从每10分钟到每月不等。数据集的创建过程涉及手动筛选和调整数据,确保上下文信息的质量和相关性。CiK数据集主要用于评估和提升多模态预测模型的性能,旨在解决在预测中有效整合文本上下文信息的问题。
提供机构:
ServiceNow Research, Mila - Québec AI Institute, Université de Montréal, Polytechnique Montréal, Université Laval, University of Toronto, McGill University
创建时间:
2024-10-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
Context is Key (CiK) 数据集通过精心设计,将数值数据与多样化的文本上下文配对,构建了一个时间序列预测基准。该数据集包含71个预测任务,涵盖7个领域,每个任务都要求模型整合数值数据和文本上下文。数据集的构建过程包括手动筛选和发布任务,确保每个任务都包含不同类型的上下文信息,并需要多种能力来充分利用上下文信息。此外,数据集还引入了一个新的评估指标——Region of Interest CRPS (RCRPS),该指标优先考虑上下文敏感的时间窗口,并考虑约束满足情况。
特点
CiK 数据集的特点在于其多模态性,结合了数值数据和文本上下文,要求模型在预测时必须整合这两种信息。数据集涵盖了多个领域,包括气候学、经济学、能源、机械、公共安全、交通和零售,每个领域都有其特定的上下文信息。此外,数据集设计了多种类型的上下文信息,如过去事件、已知因果关系等,并要求模型具备多种能力,如因果推理、数学推理等,以解锁准确的预测。
使用方法
CiK 数据集的使用方法包括评估各种预测方法,包括统计模型、时间序列基础模型和基于大型语言模型(LLM)的预测模型。数据集提供了一个可视化平台,用户可以在 https://servicenow.github.io/context-is-key-forecasting/v0/ 上探索任务和源代码。使用该数据集时,研究人员可以比较不同模型在整合上下文信息方面的表现,并探索新的预测方法,特别是那些能够有效利用文本上下文的模型。
背景与挑战
背景概述
The Context is Key (CiK) benchmark was introduced to address the critical need for accurate forecasting by integrating essential textual information with numerical data. Developed by researchers from ServiceNow Research, Mila - Québec AI Institute, Université de Montréal, Polytechnique Montréal, Université Laval, University of Toronto, and McGill University, the CiK benchmark aims to evaluate the ability of forecasting models to effectively utilize both numerical data and carefully crafted textual context. The core research question revolves around how existing forecasting models can effectively integrate textual information, which remains an open question. The CiK benchmark pairs numerical data with diverse types of textual context, requiring models to integrate both modalities. This approach aims to advance multimodal forecasting, promoting models that are both accurate and accessible to decision-makers with varied technical expertise.
当前挑战
The CiK benchmark presents several challenges. Firstly, it addresses the challenge of integrating textual context with numerical data to improve forecasting accuracy. This involves the challenge of ensuring that models can effectively interpret and utilize contextual information provided in natural language. Secondly, the benchmark highlights the challenge of constructing a dataset that pairs numerical data with relevant textual context, ensuring that the context is not only descriptive but also useful for improving forecasting performance. Additionally, the benchmark faces the challenge of evaluating models that can jointly leverage historical observations and natural language for forecasting, as there are currently no systematic evaluations of these models' abilities. Finally, the benchmark must mitigate the risk of memorization by pre-trained models, which could potentially inflate evaluation performance, by employing strategies such as using live data sources and applying minor transformations to the data.
常用场景
经典使用场景
Context is Key (CiK) 数据集的经典使用场景在于评估时间序列预测模型在整合关键文本信息方面的能力。该数据集通过将数值数据与精心构建的文本上下文配对,要求模型同时利用这两种模态进行预测。经典的使用场景包括评估统计模型、时间序列基础模型以及基于大型语言模型(LLM)的预测模型,并提出了一种简单而有效的LLM提示方法,该方法在基准测试中优于所有其他测试方法。
实际应用
CiK 数据集的实际应用场景广泛,涵盖了从气候学、经济学到能源和零售等多个领域。例如,在气候学中,模型可以利用文本描述的天气条件来改进太阳能发电量的预测;在经济学中,模型可以结合政策变化或市场新闻来提高失业率预测的准确性。此外,CiK 数据集还可以用于训练和评估能够自动选择模型并整合先验信息的机器学习模型,从而实现时间序列预测的自动化和普及化。
衍生相关工作
CiK 数据集的引入催生了一系列相关工作,特别是在多模态时间序列预测领域。例如,一些研究工作探索了如何将大型语言模型(LLM)重新用于预测,并利用自然语言作为整合侧面信息的直观接口。此外,还有研究致力于开发能够处理时间序列数据的预训练LLM,通过引入特殊标记或修改编码器来适应时间序列数据。这些工作不仅展示了CiK 数据集在推动创新方面的潜力,还揭示了现有方法在整合文本信息方面的局限性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

MIDV-500

该数据集包含使用移动设备拍摄的不同文档图像,这些图像通常具有投影变形。数据集分为训练和测试两部分,其中训练部分包含30种文档类型,测试部分包含20种,在应用神经网络之前,所有图像都被缩放到统一的宽度,宽度为400像素。该数据集的任务是进行消失点检测。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录