tum-nlp/span-similarity-dataset
收藏Span Similarity Dataset (SSD)
数据集描述
数据集概述
Span Similarity Dataset (SSD) 专注于可解释的文本相似度。它包含成对的句子,并带有指向语义等价和不同片段的注释。
语言
SSD 仅包含英语文本。
数据集结构
数据集分为 -train(800 个样本)、-eval(100 个样本)和 -test(100 个样本),均以 .tsv 文件格式提供,包含以下 4 列:
premise:第一个句子。hypothesis:第二个句子,与前提非常相似,但有一个或多个句法和/或语义不同的片段。span_similarity:每个注释片段对是否语义等价(1)或不同(0)。多个片段的值用逗号分隔,例如0,1,0。sentence_similarity:前提和假设是否具有等价意义(1)或不(0)。
数据集可以通过以下代码轻松加载到 Pandas DataFrame 中:
Python import pandas as pd dataset = pd.read_csv(span_similarity_dataset_v0.9.1-train.tsv, sep= )
数据集创建
SSD 的前提来自 CANNOT Dataset 的一个随机子集。选择 CANNOT Dataset 的原因是其发布在宽松的许可(CC BY-SA 4.0)下,并且其前提句子可以直接用于我们的目的,无需进一步处理,只需确保没有重复的句子。
注释过程
注释的主要步骤包括:
- 取前提并更改一个或多个单词片段,产生假设。修改的片段可以与原始片段在意义上等价或不同。
- 用片段注释标记包围每个修改的片段。在我们的例子中,
{{表示片段的开始,}}表示结束。 - 用
1注释每个前提-假设片段对是否等价,否则用0。 - 注释前提-假设对是否在句子级别上等价(1)或不(0)。
注释是通过使用 LLM 进行半自动方式完成的,通过手动设计的提示。在我们的例子中,我们使用了 ChatGPT(GPT-3.5 后端在 2023 年 11 月至 2024 年 4 月之间使用)。这大大减少了注释时间和努力,因为模型被提示同时替换片段并自行确定片段标签。然而,注释并不总是正确的,因此所有样本都经过手动审查和必要的更正,然后添加到数据集中。
确定片段的边界是一个复杂的问题,可能受到不同注释者主观考虑的影响。在我们的例子中,我们没有遵循严格的指导方针,但我们确实尝试在片段中包含整个句法/语义实体。例如,在以下对中:
- There is a corner lighthouse tower.
- There is a rounded lighthouse tower.
我们注释了片段 {{a corner lighthouse tower}} 和 {{a rounded lighthouse tower}}。这样做的原因是我们希望基于 SSD 的下游解决方案能够意识到语义实体。由于我们的数据集简单,一个简单的做法是注释前提和假设之间任何不同的单词。我们的注释模式防止了这种情况。
数据集统计
| Train | Eval. | Test | |
|---|---|---|---|
| Sentence pairs | 800 | 100 | 100 |
| Span pairs | 1058 | 120 | 118 |
| Spans annotated as dissimilar (0) | 528 | 60 | 60 |
| Spans annotated as equivalent (1) | 530 | 60 | 58 |
| Sentence pairs annotated as dissimilar (0) | 466 | 53 | 52 |
| Sentence pairs annotated as equivalent (1) | 334 | 47 | 48 |
| Average sentence length in words | 10.76 | 10.37 | 11.02 |
| Average span length in words | 3.88 | 3.88 | 4.27 |
| Average number of spans per sentence | 1.32 | 1.20 | 1.18 |
附加信息
许可信息
SSD 数据集在 CC BY-SA 4.0 许可下发布。
贡献
可以通过 项目仓库 提交对数据集的贡献。



