five

TempoWiC

收藏
arXiv2022-09-17 更新2024-07-24 收录
下载链接:
https://github.com/cardiffnlp/TempoWiC
下载链接
链接失效反馈
官方服务:
资源简介:
TempoWiC是由卡迪夫大学计算机科学与信息学院的卡迪夫NLP团队创建的一个新的评估基准,专门用于检测社交媒体中的意义转变。该数据集包含从2019年至2021年通过Twitter API收集的100M条推文中的数据,重点关注词汇意义随时间的演变。TempoWiC的构建基于对这些推文中的词汇频率和趋势分析,选取了210个词汇进行详细分析。数据集的应用领域主要集中在社交媒体语言的时态分析和意义转变检测,旨在解决自然语言处理中对动态社交媒体内容理解的挑战。

TempoWiC is a novel evaluation benchmark developed by the Cardiff NLP team from the School of Computer Science and Informatics at Cardiff University, specifically tailored for detecting meaning shifts in social media. This dataset comprises data extracted from 100 million tweets collected via the Twitter API between 2019 and 2021, with a primary focus on the temporal evolution of lexical meanings. TempoWiC was constructed by analyzing lexical frequency and trend patterns within these tweets, where 210 target words were selected for detailed investigation. Its core application areas include temporal analysis of social media language and meaning shift detection, aiming to resolve the challenges associated with understanding dynamic social media content in natural language processing (NLP).
提供机构:
卡迪夫NLP,计算机科学与信息学院,卡迪夫大学,英国
创建时间:
2022-09-15
原始信息汇总

TempoWiC 数据集概述

数据集描述

TempoWiC 数据集用于评估社交媒体中词汇意义变化的检测。该数据集包含推文对及其发布日期,旨在用于 EvoNLP 研讨会的共享任务。

数据结构

数据集以 JSON Lines 格式组织,每行代表一个实例,结构如下: json { "id": str, # 实例 ID "word": str, # 目标词(词形还原) "tweet1": { "text": str, # 原始文本 "tokens": list, # 分词后的文本 "token_idx": int, # 目标词在分词文本中的索引 "text_start": int, # 目标词在原始文本中的起始字符索引 "text_end": int, # 目标词在原始文本中的结束字符索引 "date": str # 推文1的日期,格式为 YYYY-MM }, "tweet2": { "text": str, # 原始文本 "tokens": list, # 分词后的文本 "token_idx": int, # 目标词在分词文本中的索引 "text_start": int, # 目标词在原始文本中的起始字符索引 "text_end": int, # 目标词在原始文本中的结束字符索引 "date": str # 推文2的日期,格式为 YYYY-MM } }

推文已使用 NLTK 的 TweetTokenizer 进行分词,并提供原始和分词后的版本。

数据集划分

  • 试验集(20 个实例,用于在 Codalab 上练习提交)
  • 训练集(1,428 个实例)
  • 验证集(396 个实例)
  • 测试集(10,000 个实例,包含虚拟实例以防止作弊)

标签

包含每个实例的黄金标签,格式为 <instance id><tab><0 if False, 1 if True>。测试实例的标签将保持隐藏。

更新

2023/03/17:测试集的黄金标签现已可用(data/test.gold.tsv - 不包含虚拟实例的条目)。

搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体动态语境下,TempoWiC数据集的构建聚焦于语义演变检测。其构建过程始于从WordNet词库中筛选已知词汇,并基于2019年至2021年间收集的1亿条推文,通过计算月度频率与趋势分数,识别出210个具有显著使用波动的候选词。随后,针对每个趋势词,分别采集其峰值日期及一年前同日的推文各100条,经预处理后随机配对,确保目标词在形态与词性上一致。数据标注采用两阶段策略:先对大量词汇进行广度标注以筛选存在语义演变的词汇,再对选定词汇进行深度标注,每实例由三位标注者独立完成,最终标签依据多数投票确定,并剔除了标注一致性较低的词汇,最终形成包含3,297个实例的数据集。
特点
TempoWiC数据集的核心特点在于其紧密结合社交媒体时空特性,专门设计用于检测词汇在动态语境中的语义演变。数据集以推文为文本载体,覆盖了如“frisk”、“mask”、“delta”等多样化的趋势词汇,这些词汇在特定时间节点因社会事件或文化现象而产生意义迁移。实例以二元分类形式呈现,要求判断目标词在不同时间推文中的含义是否一致,从而模拟真实社交平台中语言使用的瞬时性与流动性。此外,数据集的标注过程严格遵循多数投票原则,并提供了详细的词汇级统计与标注一致性指标,确保了数据的可靠性与挑战性,为时间敏感的语义分析提供了扎实的实证基础。
使用方法
TempoWiC数据集主要用于评估自然语言处理模型在社交媒体语境下检测语义演变的能力。研究者可将其视为一个二元分类任务,输入为包含同一目标词的两个不同时间推文对,输出为判断该词在上下文中含义是否相同的标签。典型的使用方法包括微调预训练语言模型(如RoBERTa、BERTweet)或基于上下文嵌入的相似度计算,通过比较目标词在推文中的向量表示来识别语义变化。数据已划分为训练集、验证集和测试集,支持模型训练与性能评估,评估指标推荐使用Macro-F1以平衡类别分布。该数据集为探索时间感知的语义建模、社交媒体语言动态分析提供了标准化的实验平台。
背景与挑战
背景概述
在自然语言处理领域,词汇语义的动态演变一直是研究焦点,尤其在社交媒体这类语言快速演化的环境中,词义漂移现象尤为显著。TempoWiC数据集由卡迪夫大学NLP团队与Snap Inc.等机构于2022年联合创建,旨在构建一个专门评估社交媒体中词义时序变化的基准测试。该数据集以Twitter平台为数据源,聚焦于通过趋势词汇捕捉词义在时间维度上的变迁,核心研究问题在于检测同一词汇在不同时间语境下的语义一致性。TempoWiC的推出填补了现有词汇语义基准在时序性与社交媒体真实性方面的空白,为时间感知的语言模型提供了关键评估工具,推动了动态语义建模领域的发展。
当前挑战
TempoWiC数据集所针对的领域挑战在于社交媒体中词义时序变化的精准检测,这要求模型不仅能理解词汇的上下文语义,还需捕捉时间因素引发的语义漂移,传统静态词义消歧方法在此任务上表现局限。在构建过程中,研究团队面临多重挑战:首先,从海量推文中筛选具有显著时序语义变化的趋势词汇需设计合理的趋势评分算法,并避免季节性等因素的干扰;其次,标注过程中需处理社交媒体文本的噪声问题,如混合语言使用与非规范表达,这对标注一致性与数据质量提出了较高要求;此外,数据配对需确保时间对比的有效性,同时平衡不同词汇的语义变化分布,以构建具有代表性的评估集合。
常用场景
经典使用场景
在自然语言处理领域,社交媒体文本的语义动态性构成了独特挑战,TempoWiC数据集通过构建基于推特趋势词汇的时序语境对,为检测词汇意义随时间推移而产生的演变提供了经典评估基准。该数据集的核心使用场景聚焦于二元分类任务,即判断同一目标词在不同时间点的推文中是否保持相同含义,从而直接模拟了社交平台上词汇语义快速迁移的现实情境。
实际应用
在实际应用层面,TempoWiC数据集为社交媒体内容理解系统提供了关键训练与评估资源。例如,在舆情监测中,系统可借助该数据集识别因热点事件引发的词汇语义变化,从而更精准地追踪舆论动向;在个性化推荐领域,模型能通过检测用户生成内容中的语义迁移,动态调整对新兴话题的理解,提升内容匹配的时效性与相关性。这些应用显著增强了自动化系统对动态语言环境的适应力。
衍生相关工作
TempoWiC的构建理念衍生出多类经典研究方向,包括时序语言模型的优化方法如TimeLMs系列,以及针对社交媒体领域的专用预训练模型BERTweet。该数据集亦激发了跨语言意义漂移检测框架的探索,推动多语言WiC任务向时序维度扩展。相关研究进一步深化了上下文嵌入相似性计算与微调策略的比较分析,为动态语义表征技术提供了新的评估范式与改进方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作