five

quantified semantic trends dataset

收藏
arXiv2024-02-19 更新2024-06-21 收录
下载链接:
https://osf.io/yzdvt/?view_only=d3723224f9234776a10882eee8b7568a
下载链接
链接失效反馈
官方服务:
资源简介:
量化语义趋势数据集是由Tableau Research创建的一个综合数据集,用于映射可量化的单变量数据趋势,如斜率和角度,到众包的语义上有意义的趋势标签。该数据集包含捕捉语义修饰符如“急剧”和“逐渐”的斜率标量效应的量化属性,以及多线趋势(例如,“峰值”,“谷值”)。数据集包含8353个条目,通过众包数据收集实验创建,旨在通过精确的量化语义标签为数据探索搜索界面提供有用的元数据,以支持用户表达分析意图。该数据集的应用领域广泛,从识别股票市场轨迹和经济波动到研究气候模式、城市增长模式以及监测疾病流行病学和健康行为。

Quantitative Semantic Trend Dataset is a comprehensive dataset developed by Tableau Research, which maps quantifiable univariate data trends such as slope and angle to crowdsourced, semantically meaningful trend labels. This dataset includes quantitative attributes that capture the scalar effects of slope for semantic modifiers like "sharply" and "gradually", as well as multi-line trends (e.g., "peak", "valley"). Comprising 8353 entries, the dataset was built through crowdsourced data collection experiments, and is designed to provide valuable metadata for data exploration search interfaces via precise quantitative semantic labels to support users in expressing their analytical intentions. This dataset has a wide range of application areas, ranging from identifying stock market trajectories and economic fluctuations to studying climate patterns, urban growth patterns, as well as monitoring disease epidemiology and health behaviors.
提供机构:
Tableau Research
创建时间:
2024-02-19
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过精心设计的三项众包实验构建而成。实验一邀请参与者将41个单一趋势描述词(如“falling”“rising”)直接映射到从-90°至90°范围内、间隔15°的13个箭头斜率上,并施加±7°的随机抖动以增加多样性,共收集5346个标注数据。实验二聚焦于修饰副词(如“slowly”“sharply”)对趋势动词的量化影响,参与者先为锚定词选定单一斜率,再为四个复合标签(如“slowly falling”)分配箭头,最终获得1861个有效标注,并计算出各修饰词的标量缩放效应。实验三则针对由两线段构成的复合形状(如“peak”“valley”),通过拖拽标签至参数化形状上完成标注,收集347个形状标签。所有数据均采用核密度估计(KDE)建模,以生成连续的概率密度分布,并公开于OSF平台。
特点
该数据集的核心特色在于其精细的量化语义层级与多维覆盖能力。首先,它实现了对趋势描述词斜率的连续量化,而非离散归类,通过KDE分布图清晰展示了如“tanking”至“booming”的语义渐变。其次,数据集创新性地量化了修饰副词对动词斜率的标量调节作用,例如“slowly”将斜率陡峭度降低至0.4倍,而“sharply”则提升至1.5倍,从而精准捕捉了“缓慢下跌”与“急剧暴跌”之间的细微差异。此外,数据集支持多线段复合形状的二维参数化标注(角度与旋转),并隐含了同义词、上下位词等语义关系,例如“rising”可作为“climbing”的上位词,为构建语义本体提供了数据基础。
使用方法
数据集的使用方法围绕将KDE分布应用于原始时间序列标注展开。首先,需对输入信号进行纵横比校正(如调整为3:1),以匹配视觉感知一致性。随后,通过Ramer-Douglas-Peucker算法将信号线性分解为若干线段,并计算其斜率或形状参数(角度与旋转)。这些参数被用于索引至对应的KDE模型,选取概率密度最高的标签作为该线段的语义标注。为确保标注可靠性,仅保留排序前75%的高置信度标签。最终,这些标签被存储于Elasticsearch索引中,支持自然语言查询(如“stocks that tanked”)、模糊匹配、分面过滤以及序列模式搜索(如“up, down, flat”),并结合视觉显著性评分对结果进行排序,以突出最具视觉冲击力的趋势事件。
背景与挑战
背景概述
在时间序列数据分析领域,精准捕捉并量化趋势描述词(如“飙升”与“缓慢攀升”)之间的语义差异,始终是自然语言搜索与可视化分析工具面临的核心难题。为弥合这一鸿沟,Alexander Bendeck、Dennis Bromley与Vidya Setlur于2024年提出了量化语义趋势数据集(Quantified Semantic Trends Dataset),该成果发表于IUI '24会议。研究团队通过众包实验,系统性地将斜率、角度等可量化单变量数据趋势映射至众包语义标签,构建了一个涵盖单线趋势(如“陡升”)与多线形态(如“峰值”、“谷底”)的综合性语义概念库。该数据集不仅揭示了修饰词(如“急剧地”、“缓慢地”)对趋势描述产生的标量缩放效应,还通过SlopeSeeker工具验证了其在自然语言查询中的实用性,为智能搜索界面理解复杂分析意图提供了关键数据支撑,对可视化分析与自然语言交互领域具有重要影响力。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,现有搜索工具与自然语言接口难以精准解释如“骤降”与“急跌”等术语间的量化差异,缺乏对趋势描述词细微语义的建模能力,导致复杂分析意图(如区分“驼峰”与“尖峰”在疫情数据中的不同含义)无法得到有效支持。其次,在构建过程中,团队需克服多个技术难点:需设计隔离斜率与图表上下文的实验以精准量化语义,需区分修饰词对趋势动词的独立缩放效应而非简单等同处理,还需为多线段形态(如“反弹”、“低谷”)建立二维核密度估计模型以应对角度与旋转的周期性边界问题。此外,数据收集需平衡众包标签的广泛性与一致性,并设计视觉显著性评分算法以提升搜索结果的实用性。
常用场景
经典使用场景
在时间序列数据分析的广阔领域中,趋势识别与语义描述始终是研究者关注的焦点。quantified semantic trends dataset 为这一课题提供了坚实的量化基础,其经典使用场景在于将自然语言中的趋势描述词(如“急剧上升”、“缓慢下降”)与具体的斜率、角度等可量化属性建立精确映射。该数据集通过众包实验收集了超过七千条标签,涵盖单一趋势、修饰词组合以及多线段形状,从而使得用户能够以自然语言查询的方式,在股票价格、疫情病例等时间序列数据中定位具有特定语义特征的趋势模式。例如,分析师可借此搜索“2010年暴跌的股票”,系统则依据语义标签与视觉显著性评分返回最相关的结果。
解决学术问题
该数据集的核心学术贡献在于弥合了自然语言表达与数据趋势量化分析之间的语义鸿沟。传统搜索工具与自然语言界面往往难以理解“缓慢攀升”与“急剧飙升”这类带有修饰词的细微差异,而该数据集通过精确量化修饰词对斜率的影响(如“缓慢”使斜率降低约40%),为语义标签的自动分类与检索提供了可操作的元数据。它解决了趋势描述词之间同义、上下位等语义关系的量化表征难题,并支持多线段形状(如“峰值”、“低谷”)的标注与识别。这一工作不仅提升了趋势搜索的精确度与召回率,还为构建语义本体、推动自然语言驱动的可视化分析系统的发展奠定了方法论基础。
衍生相关工作
该数据集衍生了一系列具有影响力的后续工作。在技术层面,研究者基于其量化标签提出了视觉显著性评分算法,通过计算趋势在时间与数值维度上的覆盖范围来排序结果,增强了搜索的实用性。在系统设计方面,SlopeSeeker 工具不仅实现了语义解析与分面搜索,还支持序列查询与部分匹配,为下一代智能搜索界面提供了原型参考。此外,该数据集启发了利用大语言模型进行数据增强与趋势叙事生成的研究方向,例如通过 GPT-4 将多个标注事件整合为连贯的文本描述。未来工作还可能探索与草图输入、知识图谱的结合,进一步拓展趋势搜索的模态与应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作