five

伪周期合成时间序列数据集,用于测试时间序列数据库中的索引方案

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26218.html
下载链接
链接失效反馈
官方服务:
资源简介:
Data Set Information: 此数据集用于测试时间序列数据库中的索引方案。这是一个比任何已发表研究(我们目前所知)中使用的数据集大得多的数据集。它包含一百万个数据点。数据被分成10个部分,以便于测试(见下文)。我们建议使用100000个数据点部分中的9个建立索引,并从第10个部分中随机抽取一个查询形状。(以前发表的一些工作似乎使用了同样用于构建索引结构的查询。这将产生乐观的结果)这些数据很有趣,因为它们在不同的分辨率下具有不同的结构。通过函数的独立调用生成的10个部分中的每一部分:(参见equation.gif) 其中rand(x)生成一个介于0和x之间的随机整数。 数据呈现出高度的周期性,但从不完全重复自身。此功能旨在挑战索引结构。时间序列在这里绘制:(ts1-5.gif),(ts6-10.gif) Attribute Information: The data is stored in one ASCII file. There are 10 columns, 100,000 rows. All data points are in the range -0.5 to +0.5. Rows are separated by carriage returns, columns by spaces. Relevant Papers: Eamonn J. Keogh, Michael J. Pazzani: (1999). An indexing scheme for similarity search in large time series databases. The 11th International Conference on Scientific and Statistical Database Management. Cleveland, Ohio. [Web link] Sanghyun Park, Dongwon Lee, and Wesley W. Chu. "Fast Retrieval of Similar Subsequences in Long Sequence Databases", In 3rd IEEE Knowledge and Data Engineering Exchange Workshop (KDEX), Chicago, IL, USA, November, 1999 [Web link] Citation Request: Freely available for research use. Eamonn J. Keogh and Michael J. Pazzani Department of Information and Computer Science University of California, Irvine, California 92697 USA eamonn '@' ics.uci.edu, pazzani '@' ics.uci.edu
提供机构:
帕依提提
二维码
社区交流群
二维码
科研交流群
商业服务