TempoWiC
收藏TempoWiC 数据集概述
数据集描述
TempoWiC 数据集用于评估社交媒体中词汇意义变化的检测。该数据集包含推文对及其发布日期,旨在用于 EvoNLP 研讨会的共享任务。
数据结构
数据集以 JSON Lines 格式组织,每行代表一个实例,结构如下: json { "id": str, # 实例 ID "word": str, # 目标词(词形还原) "tweet1": { "text": str, # 原始文本 "tokens": list, # 分词后的文本 "token_idx": int, # 目标词在分词文本中的索引 "text_start": int, # 目标词在原始文本中的起始字符索引 "text_end": int, # 目标词在原始文本中的结束字符索引 "date": str # 推文1的日期,格式为 YYYY-MM }, "tweet2": { "text": str, # 原始文本 "tokens": list, # 分词后的文本 "token_idx": int, # 目标词在分词文本中的索引 "text_start": int, # 目标词在原始文本中的起始字符索引 "text_end": int, # 目标词在原始文本中的结束字符索引 "date": str # 推文2的日期,格式为 YYYY-MM } }
推文已使用 NLTK 的 TweetTokenizer 进行分词,并提供原始和分词后的版本。
数据集划分
- 试验集(20 个实例,用于在 Codalab 上练习提交)
- 训练集(1,428 个实例)
- 验证集(396 个实例)
- 测试集(10,000 个实例,包含虚拟实例以防止作弊)
标签
包含每个实例的黄金标签,格式为 <instance id><tab><0 if False, 1 if True>。测试实例的标签将保持隐藏。
更新
2023/03/17:测试集的黄金标签现已可用(data/test.gold.tsv - 不包含虚拟实例的条目)。




